ログイン/
新規登録

アマゾンビデオの評価データ

作成日：2017年10月19日　最終更新日：2017年10月19日
コメントする
いいね
お気に入り

全体に公開

提出者情報

データジャケットの題名	アマゾンビデオの評価データ
データの所在・所有者	http://jmcauley.ucsd.edu/data/amazon/
データ収集方法やコスト	アマゾンさんが収集し、ネットに公開しています。
データの共有について	その他
データの共有について (その他を選ばれた方)

データの分析・シミュレーションについて

データの種類	テキスト数値表
データの変数（パラメーター）の変数名	ユーザーがビデオに対して出した評価\|AIV_RATING\|AIR_ITEMS\|ユーザーコード\|各ビデオのテキスト情報\|ビデオコード
データの概要説明	データ自体は二つのテキストファイルからなります。 aiv_rating.txtにはユーザーがビデオへの評価を記録している。その様式は次のようになる：ユーザーコード::ビデオコード::評価点（１?５までの整数値）その一例：A3CAMPJIP31VCB::B0048ZXXIO::5.0 評価項目数:583,933 ? ? ユーザーの数:37,126 air_items.txtには各ビデオのテキスト情報（ジャンル、ユーザーのレビュー）などが記されている。
想定しているデータの分析・シミュレーションプロセス	例えば知っているデータに基づいてユーザーに彼が好きであろうという商品を勧めようとする。シンプルに考えると、各ユーザーが出している評価をベクトルとして考える（評価していない商品を0とする）例えば、ビデオが１０個のとき、ユーザーAがビデオ２に対して５の評価を出し、ビデオ７に対して３の評価を出したとする、この場合評価ベクトルは次のようになる： [0,0,5,0,0,0,3,0,0,0] このようにユーザーそれぞれの評価ベクトルをもってユーザー間のコサイン類似度を算出できる。ユーザーAに薦めるとしたら、彼と評価傾向が最も近いユーザーたちのことを参考にすれば良いので、コサイン類似度にKNN法を適用すれば良い。
想定しているデータの分析・シミュレーションプロセスの結果　（データ分析結果／ツールの出力／典型例など）	データ全体の９割を訓練用データとして、その残りの１割をテストデータというふうに分けて、プログラムを書いて学習させると、 precision:81% recall:74% となりました。
上記の分析・シミュレーションプロセス以外に期待する分析	上記の分析には二つの問題点が考えられる。一番目の問題点はテキストについては利用できていない。二番目の問題点は実際の評価マトリックスRは大規模疎行列である：つまりユーザーベクトルは何万次元に対して、ほとんどの要素の値は０である。（ユーザーは全部ビデオの中のほんの一部に対してしか評価していないから）このためコサイン類似度は算出しても無意味である。解決方法：一番目の問題点の解決法：テキストのままでは処理できないから、word2vecのライブラリーを使いベクトルに変換するというふうに考える。そしてこれらをconvolutional neural networkに入れて潜在特徴ベクトルを抽出する。だが実際このようにやったりメモリーオバーになったため、先にtf-idf法を用いて処理し上位5000だけ取り出しCNNで訓練することにした（そのほかの単語のウェートがものすごく小さいため無視して良い）二番目の問題点の解決法：2008年にProbabilistic Matrix Factorizationという論文の中で疎行列の評価行列Rに対処するため、Rを行列UとVの積で近似することを提案しました。詳しく記述できないが、今の問題に適用するとLという損失関数を定義し、これはRとUVの差、CNNで訓練したビデオの潜在ベクトル、正則項この三つで計算でき、Lの最適化問題に帰着できる。損失関数Lの最小化問題を考えるため確率的勾配降下法を適用する。

その他

自由記述	データが足りなくて、特にソーシャルネットワークに関するデータが欲しい。
入手したいデータ／ツール	ソーシャルネットワークのデータがあれば、もっと良い評価結果が出るとかもしれない。というのは、人々は何かを買う時にはよく仲が良い人のアドバイスをもらったり、有名人の行動に影響されたりするから。
可視化情報
サンプルデータ

最近投稿されたDJ

日照量と株価の相関性の検証

2022年02月13日

気候変動から影響を受ける可能性の高い銘柄の検知

2022年02月13日

nbaにおける各地点でのシュート軌道と成功率の関係

2022年01月14日

SNSでのデマの拡散に関するデータ

2022年01月12日

国民幸福度データ

2022年01月12日

コメントフォームコメントをキャンセル

関連するトピック

関連するトピックはありません。

このDJのトピックを投稿