Sansanの名刺データセット

  • 作成日:2018年08月16日 最終更新日:2018年08月16日
  • コメントする
  • いいね
  • お気に入り

全体に公開

提出者情報

データジャケットの題名 Sansanの名刺データセット
データの所在・所有者 国立情報学研究所、Sansan株式会社
データ収集方法やコスト 名刺を画像データとして実際にスキャナやカメラで取り込んだもの(氏名等の内容は実在しないサンプル)
データの共有について 条件により共有可(必要に応じて交渉)
データの共有について (その他を選ばれた方)

データの分析・シミュレーションについて

データの種類 テキスト 数値 画像
データの変数(パラメーター)の変数名 X軸|Y軸|郵便番号|役職|携帯番号|住所|会社名|E-MAILアドレス|URL|FAX番号|名前
データの概要説明 国立情報学研究所により提供されている、Sansan株式会社がクラウド名刺管理サービスのデータ化技術検証用に作成したダミーの名刺画像データ。データ分析コンテスト「人工知能は名刺をどこまで解読できるのか」で使用されたもの。氏名等の内容は実在しないサンプルだが、画像データは実際にスキャナやカメラで取り込んだものであり、学習用に2480枚、テスト用に1001枚をPNG形式で提供している。 各画像データにつき平均して9領域(学習用に25358領域、テスト用に8918領域)の位置座標が与えられており、各領域に対し「会社名」「氏名」「役職」「住所(郵便番号を含む)」「電話番号」「FAX番号」「携帯番号」「E-mailアドレス」「HPのURL」の各項目が含まれるか否かのラベルが付与されている。
想定しているデータの分析・シミュレーションプロセス 画像認識、画像解析。テキストマイニング
想定しているデータの分析・シミュレーションプロセスの結果 (データ分析結果/ツールの出力/典型例など) 名刺に書かれている項目を推定し、自動でラベリングする。
上記の分析・シミュレーションプロセス以外に期待する分析

その他

自由記述 詳細は国立情報学研究所の情報学研究データリポジトリを参照 https://www.nii.ac.jp/dsc/idr/sansan/sansan.html
入手したいデータ/ツール
可視化情報
サンプルデータ

コメントフォーム

captcha

利用規約はこちらからご確認下さい。