SBMのタグを用いたユーザ間類似度について

はてぶの情報から得たユーザ間の類似度をJungで描画 - 研究とプログラミングメモ by LNCTではユーザ間類似度の算出に「BMしているページ集合」を利用しているが、現在は各々のユーザが付与したタグを用いた類似度の算出を試みているところである.

以下に進捗状況を示す.

100ユーザ分のタグ情報

タグ数…54540
種類数…5599

現在は100ユーザ分のすべてのタグを抽出した段階.

少し気になったこと

タグの先頭に”*”を付与したユーザがいたので少し調べてみると以下のページを見つける.
ソーシャルブックマークが使いやすくなるタグの付け方7つのコツ*ホームページを作る人のネタ帳
どうやら管理しやすくするためのコツのよう.
確かにタグリストの先頭にズラーッと並び管理しやすそうだ.非常に参考になる.

今後

現在,”*”を付与したタグとそうでないタグは意識していないため,例えば,「*apple」と「apple」は別のタグとして数えている.
今はとりあえず類似度を算出するまでの実装の方が先決であろうが,やはり「タグ表記のゆれ」に関することも考えていかなければならないようだ.