[groonga-dev,01909] mroongaを使ったシステムの実験告知

Back to archive index

宮脇佑介 wakis****@gmail*****
2013年 11月 15日 (金) 17:20:00 JST



mroonga開発者様方にはいつもお世話になっています。
宮脇です。


この度、mroongaを用いた、
あるシステムの実験の協力者を募集するため、メールしました。



カテゴリ抽出実験サイト
http://133.101.61.43/~2010_miyawakiyusuke/doc/laboratory/


上記はテキストを解析して、そのテキストの主文であろう
カテゴリを求めるツールです。

この「カテゴリ抽出」には、2つのパラメータがあるのですが、テキストによっ
てカテゴリ抽出の結果が最適になるパラメータが違い、毎回最適なカテゴリ抽出
結果となるように手作業で設定する必要がありました。


そこで、
「こういうテキストには、こういうパラメータ、
こんなテキストには、こんなパラメータ」といった、
テキストとパラメータの教師データを取りたいと考えています。
(テキストとパラメータのパターン?が見つかればいいなという考えです)




多分mroognaをこんな使い方するのは珍しいかなとも思っています。
試して頂けるだけでも十分ありがたいです。
温かい目で見てやって下さい。






どのような手順で作業するのかは、メールでは長くなりそうなので、
勝手ながら、

カテゴリ抽出実験サイト
http://133.101.61.43/~2010_miyawakiyusuke/doc/laboratory/


に記載しました。



暇な時に、冷やかしとして適当なテキストを解析してみるという方法でも私に
とってはありがたいことです。

誹謗中傷、えっちいもの、、どんなテキストでも構いません。
ご協力をお願い致します。












余談−−−−−−−−−−−−

私は現在、学生としてウェブページ推薦システムを作成しています。
(ウェブページ推薦システムの仕組みは簡単です。
ユーザが普段ウェブページを閲覧している時、無意識に注目している箇所をマウ
スで操作していることに着目し、ウェブページ内でマウスの触れたテキストから
ユーザの好みを抽出して、似たもの同士を見つける(協調フィルタリング)シス
テムです。)


現在は、ウェブページ推薦システムの部品となる、「カテゴリ抽出」を、
mroongaを用いて作成+調整しています。
(テキストデータからカテゴリを抽出するシステムです。特徴としては、表記ズ
レ・略称・テキスト内のカテゴリ間の関係性から、ノイズとなるテキストの除去
などが可能です、言うところの、テキストマイニングツールとなる部分です。)


作成中のシステムの目標は、
手間のかからない、正確なウェブページ推薦システムの開発です
(ユーザは普段通りウェブページを閲覧するだけ。
ウェブページのブックマークやコメントなどの評価は、作成中のウェブページ推
薦システムに一切必要ありません。)





--

宮脇




groonga-dev メーリングリストの案内
Back to archive index