The New York Times Annotated Corpus

  • 作成日:2015年10月27日 最終更新日:2015年10月27日
  • コメントする
  • いいね
  • お気に入り

全体に公開

提出者情報

データジャケットの題名 The New York Times Annotated Corpus
データの所在・所有者 https://catalog.ldc.upenn.edu/LDC2008T19
データ収集方法やコスト ニューヨーク・タイムズの過去の記事データを整理。タグ付けなどは一部自動だが、手動で行っているものもある。
データの共有について その他
データの共有について (その他を選ばれた方)

データの分析・シミュレーションについて

データの種類 グラフ テキスト 数値 時系列
データの変数(パラメーター)の変数名 ARTICLE_ABSTRACT|ONLINE_LEAD_PARAGRAPH|TAXONOMIC_CLASSIFIERS|SECTION|ALTERNATE_URL|ORGANIZATIONS|NORMALIZED_BYLINE|PUBLICATION_DAY_OF_MONTH|ONLINE_LOCATIONS|NAMES|BYLINE|WORD_COUNT|TYPES_OF_MATERIAL|COLUMN_NAME|FEATUREPAGE|URL|DATELINE|HEADLINE|COLUMN_NUMBER|ONLINE_SECTION|PEOPLE|PUBLICATION_MONTH|ONLINE_HEADLINE|LEAD_PARAGRAPH|NEWS_DESK|BANNER(ADDITIONAL_INFORMATION_APPENDED_TO_THE_ARTICLES)|PAGE|SLUG|TITLES|ONLINE_PEOPLE|ONLINE_TITLES|BODY(THE_TEXT_CONTENT_OF_THE_ARTICLE)|SERIES_NAME|DAY_OF_WEEK|AUTHOR_BIOGRAPHY|CORRECTION_TEXT|ONLINE_DESCRIPTORS|PUBLICATION_DATE|CORRECTION_DATE|DESCRIPTORS|ONLINE_ORGANIZATIONS|GENERAL_ONLINE_DESCRIPTORS|LOCATIONS|PUBLICATION_YEAR|GUID|CREDIT|BIOGRAPHICAL_CATEGORIES(HAND-ASSIGNED_TAG)|KICKER
データの概要説明 The New York Timesの英語ニュース記事のアーカイブである。The New York Times Annotated Corpusは1987年1月1日から2007年6月19日までに出版された約180万件のニューヨーク・タイムズの記事、メタデータを提供している。 利用価格は300USD。 コーパスが含むデータの詳細は以下。 ・Over 1.8 million articles (excluding wire services articles that appeared during the covered period). ・Over 650,000 article summaries written by library scientists. ・Over 1,500,000 articles manually tagged by library scientists with tags drawn from a normalized indexing vocabulary of people, organizations, locations and topic descriptors. ・Over 275,000 algorithmically-tagged articles that have been hand verified by the online production staff at nytimes.com. ・Java tools for parsing corpus documents from .xml into a memory resident object.? 変数の詳細情報はマニュアル(https://catalog.ldc.upenn.edu/docs/LDC2008T19/new_york_times_annotated_corpus.pdf)に記載されている。
想定しているデータの分析・シミュレーションプロセス summarization(文書要約)、metadata extraction(メタデータ抽出)、information retrieval(情報検索)、information extraction(情報抽出)
想定しているデータの分析・シミュレーションプロセスの結果 (データ分析結果/ツールの出力/典型例など)
上記の分析・シミュレーションプロセス以外に期待する分析

その他

自由記述 http://qiita.com/yubessy/items/58f5a1c6749a65ba0995 上記の参考サイトによると、データは下記の状態にあるようである。 記事数:1855658件 記事ID:0000000 - 1855670 欠如している記事ID:48372, 51952, 69594, 81513, 113822, 288553, 858493, 858494, 858495, 858496, 858498, 858499, 1685651 利用マニュアルは以下 https://catalog.ldc.upenn.edu/docs/LDC2008T19/new_york_times_annotated_corpus.pdf
入手したいデータ/ツール
可視化情報
サンプルデータ

コメントフォーム

captcha

利用規約はこちらからご確認下さい。