テキストマイニングによる転職サイトの会員離脱予想のデータ

  • 作成日:2017年06月11日 最終更新日:2017年06月11日
  • コメントする
  • いいね
  • お気に入り

全体に公開

提出者情報

データジャケットの題名 テキストマイニングによる転職サイトの会員離脱予想のデータ
データの所在・所有者 東京理科大学理工学部経営工学科
データ収集方法やコスト 転職サイトの登録者の登録情報と職務報告書から収集
データの共有について その他
データの共有について (その他を選ばれた方)

データの分析・シミュレーションについて

データの種類 テキスト 数値
データの変数(パラメーター)の変数名 脱離ルール|数値データ|職務履歴書|分かち書きされたデータ|離脱する会員と応募する会員の違いルール|コーパス|文書行列|文書ベクトル|単語データ|重要度|登録情報|決定木
データの概要説明 転職サイトの登録者の登録情報と職務報告書からテキストマイニングを用いて、転職サイトを離脱する登録者の傾向が出ている特徴量を抽出したデータ。
想定しているデータの分析・シミュレーションプロセス 職務履歴書からコーパスを作成。コーパスから分かち書きされたデータを作成。分かち書きされたデータから単語を抽出。抽出された単語から文書ベクトルを作成。文書ベクトルを組み合わせて文書行列を作成。文書行列から頻出頻度の高いまたは低い単語の成分を削除。出来上がった行列をランダムフォレストを用いて重要度を算出。算出された重要度を決定木分析にかけて決定木を作成。決定木からサイトの離脱ルールを推定。またサイトの登録者情報を数値データ化し、先ほどの文書ベクトルと数値データから重要度を算出。重要度を決定木分析にかけて決定木を作成。決定木から、離脱する会員と応募する会員の違いルールを推定。
想定しているデータの分析・シミュレーションプロセスの結果 (データ分析結果/ツールの出力/典型例など) 離脱する会員のルール、離脱する会員と応募する会員の違いのルール
上記の分析・シミュレーションプロセス以外に期待する分析

その他

自由記述 こちらが専門的な知識を持っているという前提で書かれた論文だったので、まず研究の仕組みを理解することが難しく、それに伴い変数同士の関係性を明白にすることが難しかった。
入手したいデータ/ツール
可視化情報
サンプルデータ

コメントフォーム

captcha

利用規約はこちらからご確認下さい。