ログイン/
新規登録

The New York Times Annotated Corpus

作成日：2015年10月27日　最終更新日：2015年10月27日
コメントする
いいね
お気に入り

全体に公開

提出者情報

データジャケットの題名	The New York Times Annotated Corpus
データの所在・所有者	https://catalog.ldc.upenn.edu/LDC2008T19
データ収集方法やコスト	ニューヨーク・タイムズの過去の記事データを整理。タグ付けなどは一部自動だが、手動で行っているものもある。
データの共有について	その他
データの共有について (その他を選ばれた方)

データの分析・シミュレーションについて

データの種類	グラフテキスト数値時系列
データの変数（パラメーター）の変数名	ARTICLE_ABSTRACT\|ONLINE_LEAD_PARAGRAPH\|TAXONOMIC_CLASSIFIERS\|SECTION\|ALTERNATE_URL\|ORGANIZATIONS\|NORMALIZED_BYLINE\|PUBLICATION_DAY_OF_MONTH\|ONLINE_LOCATIONS\|NAMES\|BYLINE\|WORD_COUNT\|TYPES_OF_MATERIAL\|COLUMN_NAME\|FEATUREPAGE\|URL\|DATELINE\|HEADLINE\|COLUMN_NUMBER\|ONLINE_SECTION\|PEOPLE\|PUBLICATION_MONTH\|ONLINE_HEADLINE\|LEAD_PARAGRAPH\|NEWS_DESK\|BANNER(ADDITIONAL_INFORMATION_APPENDED_TO_THE_ARTICLES)\|PAGE\|SLUG\|TITLES\|ONLINE_PEOPLE\|ONLINE_TITLES\|BODY(THE_TEXT_CONTENT_OF_THE_ARTICLE)\|SERIES_NAME\|DAY_OF_WEEK\|AUTHOR_BIOGRAPHY\|CORRECTION_TEXT\|ONLINE_DESCRIPTORS\|PUBLICATION_DATE\|CORRECTION_DATE\|DESCRIPTORS\|ONLINE_ORGANIZATIONS\|GENERAL_ONLINE_DESCRIPTORS\|LOCATIONS\|PUBLICATION_YEAR\|GUID\|CREDIT\|BIOGRAPHICAL_CATEGORIES(HAND-ASSIGNED_TAG)\|KICKER
データの概要説明	The New York Timesの英語ニュース記事のアーカイブである。The New York Times Annotated Corpusは1987年1月1日から2007年6月19日までに出版された約180万件のニューヨーク・タイムズの記事、メタデータを提供している。利用価格は300USD。コーパスが含むデータの詳細は以下。・Over 1.8 million articles (excluding wire services articles that appeared during the covered period). ・Over 650,000 article summaries written by library scientists. ・Over 1,500,000 articles manually tagged by library scientists with tags drawn from a normalized indexing vocabulary of people, organizations, locations and topic descriptors. ・Over 275,000 algorithmically-tagged articles that have been hand verified by the online production staff at nytimes.com. ・Java tools for parsing corpus documents from .xml into a memory resident object.? 変数の詳細情報はマニュアル（https://catalog.ldc.upenn.edu/docs/LDC2008T19/new_york_times_annotated_corpus.pdf）に記載されている。
想定しているデータの分析・シミュレーションプロセス	summarization（文書要約）、metadata extraction（メタデータ抽出）、information retrieval（情報検索）、information extraction（情報抽出）
想定しているデータの分析・シミュレーションプロセスの結果　（データ分析結果／ツールの出力／典型例など）
上記の分析・シミュレーションプロセス以外に期待する分析

その他

自由記述	http://qiita.com/yubessy/items/58f5a1c6749a65ba0995 上記の参考サイトによると、データは下記の状態にあるようである。記事数：1855658件記事ID：0000000 - 1855670 欠如している記事ID：48372, 51952, 69594, 81513, 113822, 288553, 858493, 858494, 858495, 858496, 858498, 858499, 1685651 利用マニュアルは以下 https://catalog.ldc.upenn.edu/docs/LDC2008T19/new_york_times_annotated_corpus.pdf
入手したいデータ／ツール
可視化情報
サンプルデータ

最近投稿されたDJ

日照量と株価の相関性の検証

2022年02月13日

気候変動から影響を受ける可能性の高い銘柄の検知

2022年02月13日

nbaにおける各地点でのシュート軌道と成功率の関係

2022年01月14日

SNSでのデマの拡散に関するデータ

2022年01月12日

国民幸福度データ

2022年01月12日

コメントフォームコメントをキャンセル

関連するトピック

関連するトピックはありません。

このDJのトピックを投稿