Sansanの名刺データセット

  • Last Update:August,16,2018 Created:August,16,2018
  • Comment
  • Like
  • Favorite

Public

Profile

Title of the dataset Sansanの名刺データセット
Provenance of the dataset 国立情報学研究所、Sansan株式会社
How were the data collected/created? What was the cost? 名刺を画像データとして実際にスキャナやカメラで取り込んだもの(氏名等の内容は実在しないサンプル)
Data sharing policy Under particular condition.
Data sharing policy

About data analysis and simulation

Type of data: Check all that apply. Use "Other" to specify other types so that we can include them in further updates. text number image table
Variable labels of dataset (the names of the variables) X軸|Y軸|郵便番号|役職|携帯番号|住所|会社名|E-MAILアドレス|URL|FAX番号|名前
Outline of data 国立情報学研究所により提供されている、Sansan株式会社がクラウド名刺管理サービスのデータ化技術検証用に作成したダミーの名刺画像データ。データ分析コンテスト「人工知能は名刺をどこまで解読できるのか」で使用されたもの。氏名等の内容は実在しないサンプルだが、画像データは実際にスキャナやカメラで取り込んだものであり、学習用に2480枚、テスト用に1001枚をPNG形式で提供している。 各画像データにつき平均して9領域(学習用に25358領域、テスト用に8918領域)の位置座標が与えられており、各領域に対し「会社名」「氏名」「役職」「住所(郵便番号を含む)」「電話番号」「FAX番号」「携帯番号」「E-mailアドレス」「HPのURL」の各項目が含まれるか否かのラベルが付与されている。
Simulation process 画像認識、画像解析。テキストマイニング
Expected outcome of the process (obtained knowledge, analysis results, output of tools) 名刺に書かれている項目を推定し、自動でラベリングする。
Anticipation for analyses/simulations other than the typical ones provided above

Other

Comments 詳細は国立情報学研究所の情報学研究データリポジトリを参照 https://www.nii.ac.jp/dsc/idr/sansan/sansan.html
What kind of data/tools do you wish to have?
Visualized information
Sample data

Comment form

captcha

Please check the terms of use here.

関連するトピック

関連するトピックはありません。