ブックマークの評価軸

あるページがブックマークされた期間を評価軸に加えようというお話.

「長期的にブックマークされ続けているページは有用.一方,短期的にブックマークされただけページはレコメンドには適さないのでは.」との観点.


そこで,参考文献「http://web.sfc.keio.ac.jp/~ueno1/paper/proshin_ueno2008.pdf」を読む.以下,要約と気付き.

ソーシャルブックマークデータ分析

2種類のタイプのWebページ

  1. 急激にBM数が伸びて,それでおしまいなページ
    • 全日数/全BM数=0.2以下→→「ニュース・話題」「議論・日記」「サービス・ツール紹介」が上位.一時的に利用される傾向の強いWebページが大半.
  2. 長期間に渡ってBM数が伸びているページ
    • 全日数/全BM数=0.8以上→→「Webサービス」「総合的技術解説サイト」「まとめサイト」が上位.長期間に渡って利用される傾向に強いWebページが大半.

セレクトブクマ

http://plazman.chi.mag.keio.ac.jp/sbm/summary.jsp…キーワード(タグ)を投げるとそれに関連するページをポイントの高い順にレコメンドしてくれる.

  • 取得データ
    • URL:70万URL
    • レコード数:2000万レコード
  • ランキング手法
    • 評価値=指定したキーワード(タグ)でBMされた数×指定したキーワード(タグ)でBMされた日数

結果(キーワードはjava)

  • Google検索
    • Java関連のDLサイト」「Java自体の意味解説サイト」「Wiki」などが上位.
  • 指定したタグでのBM数
    • 「一部の技術を解説している暫定的な技術解説サイト」が多い.
  • セレクトブクマによる検索
    • Java全般に関する総合的な技術解説サイト」が上位.

↓つまり

  • 検索単語自体の意味を調べる→Google検索
  • 検索単語について詳しく調査したい→セレクトブクマ

関連サービス

気付きと今後の研究に関して

なるほど.SBMの時間情報と,BMされるページの種類の関連性は非常に納得.
ここで,単純に長期間愛され続けるページをレコメンド対象にふさわしいとの見方をする(やや疑問が残るが…).
つまり

データ収集→ユーザ間類似度の算定→ランダムに選択したURLをレコメンド→目視で評価

としていたところを

データ収集→ユーザ間類似度の算定→時間情報を用いて選択したURLをレコメンド→目視で評価

にするのかな.よくわからなくなってきた.

※実は目視で評価の所も曖昧で気持ち悪いところ.Webサービスとして提供して生ユーザから生の声を収集できれば良いのではと考えてが,速度の問題で困難かもしれない.