研究(SBM)

CSV形式のファイルをDBに突っ込む

データベースの生成 create database LDclip;テーブルの生成 create table clips ( user_id int not null, url varchar(255) not null, timestamp timestamp not null default CURRENT_TIMESTAMP, tags text, );CSVファイルの読み込み セキュリティ上の理由…

Livedoorクリップの EDGE Datasets

やられた "352","http://japan.cnet.com/news/media/story/0,2000056023,20147647,00.htm","2006-06-27 17:30:53","EC 気になる 仕事" "869","http://japan.cnet.com/news/media/story/0,2000056023,20147647,00.htm","2006-06-22 23:29:30","yahoo アフィリ…

ぜみがあまり進まない

論文 ブックマークの時系列情報を利用したソーシャルブックマークにおける注目度予測 (3.3節のみ) ゼミ 前回(http://d.hatena.ne.jp/kyohei_hamada/20100507)の続きをレジュメにまとめたので再びdisった.数式の説明に時間がかかったため,今回は1時間余りの…

XML-RPCを知る,環境はUbuntu

参考ページ 404 - エラー: 404 404 - エラー: 404 概要 下図はより抜粋 クライアントがXML形式のテキストで記述された型付の引数をサーバ側アプリケーションに渡し、サーバが返り値を同じくXML形式のテキストで返すという動作をする。 perlのサンプルプログ…

論文

さらっと読んだ ユーザのタグ付けの傾向を利用したソーシャルブックマーク内の関連ページ検索手法 ソーシャルブックマークに基づく情報発見 ソーシャルブックマークにおけるイノベータに注目した情報推薦手法の提案 読んでいる途中 ブックマークの時系列情報…

EDGE Datasets に応募

EDGE Datasets クローリングしてる暇があるなら…論文かいたら? | EDGE Datasets(研究用データセット) 『livedoor クリップで公開設定になっているユーザデータの URL, タグ, 作成時刻などを csv ファイルにまとめたものを用意しています。』 とのこと.これ…

ブックマークの評価軸

あるページがブックマークされた期間を評価軸に加えようというお話.「長期的にブックマークされ続けているページは有用.一方,短期的にブックマークされただけページはレコメンドには適さないのでは.」との観点. そこで,参考文献「http://web.sfc.keio.…

タグを用いて求めたユーザ間類似度をjungで描画(正しいバージョン)

なんと!! タグを用いて求めたユーザ間類似度をjungで描画 - 研究とプログラミングメモ by LNCTで示した図は正しい類似度を用いていなかったことに気付く.数値の妥当性をあまり考えていなかったようだ. 原因は「aの2乗」を「a^2」と書いていたため(この書…

タグを用いて求めたユーザ間類似度をjungで描画

tanimoto係数を用いた.まだまだ調査が必要.

SBMのタグを用いたユーザ間類似度について

はてぶの情報から得たユーザ間の類似度をJungで描画 - 研究とプログラミングメモ by LNCTではユーザ間類似度の算出に「BMしているページ集合」を利用しているが、現在は各々のユーザが付与したタグを用いた類似度の算出を試みているところである.以下に進捗…

tanimoto係数(Jaccard係数の拡張)

参考ページ 404 Not Found こちらに数式が記載されている.2008-11-18 - 初学者の箸置 PythonとRのプログラムを参考. 数式 Pythonプログラムの実行結果 >>> tanimoto([1.0, 0.0, 0.0, 1.0], [1.0, 0.0, 1.0, 1.0]) 0.66666666666666663 >>> tanimoto([3.0, …

JungのLayoutを変えてみた&TODO

FRLayout CircleLayout TODO tf値を用いる tf値とは「単語の出現頻度」のこと。 ここではタグの出現頻度を考慮する。 期間 データが多くて描画が遅い&見にくいのでブックマークした期間を絞ってみる。 例えば1ヶ月 ユーザ数 こちらも期間と同様の理由でユー…

はてぶの情報から得たユーザ間の類似度をJungで描画

データ はてぶのタグ情報からJaccard係数(っぽいもの)を用いて抽出した類似度(100ユーザ分) グラフ 離れている4人のユーザが少し気になるので詳しく調べたい。 ソース 下記参考ページとほとんど同じ。 以下に変更点を示す。 閾値を0.2から0.8に(サンプルは相…