Sansanの名刺データセット
作成日:2018年08月16日 最終更新日:2018年08月16日
コメントする
いいね
お気に入り
全体に公開
提出者情報
データジャケットの題名 | Sansanの名刺データセット |
---|---|
データの所在・所有者 | 国立情報学研究所、Sansan株式会社 |
データ収集方法やコスト | 名刺を画像データとして実際にスキャナやカメラで取り込んだもの(氏名等の内容は実在しないサンプル) |
データの共有について | 条件により共有可(必要に応じて交渉) |
データの共有について (その他を選ばれた方) |
データの分析・シミュレーションについて
データの種類 | テキスト 数値 画像 表 |
---|---|
データの変数(パラメーター)の変数名 | X軸|Y軸|郵便番号|役職|携帯番号|住所|会社名|E-MAILアドレス|URL|FAX番号|名前 |
データの概要説明 | 国立情報学研究所により提供されている、Sansan株式会社がクラウド名刺管理サービスのデータ化技術検証用に作成したダミーの名刺画像データ。データ分析コンテスト「人工知能は名刺をどこまで解読できるのか」で使用されたもの。氏名等の内容は実在しないサンプルだが、画像データは実際にスキャナやカメラで取り込んだものであり、学習用に2480枚、テスト用に1001枚をPNG形式で提供している。 各画像データにつき平均して9領域(学習用に25358領域、テスト用に8918領域)の位置座標が与えられており、各領域に対し「会社名」「氏名」「役職」「住所(郵便番号を含む)」「電話番号」「FAX番号」「携帯番号」「E-mailアドレス」「HPのURL」の各項目が含まれるか否かのラベルが付与されている。 |
想定しているデータの分析・シミュレーションプロセス | 画像認識、画像解析。テキストマイニング |
想定しているデータの分析・シミュレーションプロセスの結果 (データ分析結果/ツールの出力/典型例など) | 名刺に書かれている項目を推定し、自動でラベリングする。 |
上記の分析・シミュレーションプロセス以外に期待する分析 |
その他
自由記述 | 詳細は国立情報学研究所の情報学研究データリポジトリを参照 https://www.nii.ac.jp/dsc/idr/sansan/sansan.html |
---|---|
入手したいデータ/ツール | |
可視化情報 | |
サンプルデータ |
コメントフォーム