OSDN > 軟體搜索 > Internet > WWW/HTTP > Indexing/Search > Ludia > Ticket List/Search > 待辦事項 #11202

Ludia

待辦事項 #11202
待辦事項列表 新增待辦事項  RSS

類似分書検索の特徴語抽出の条件について

啟用日期: 2007-10-26 19:29 最後更新: 2007-11-16 10:08

監視

回報者:

ssn

負責人:

(無)

類型:

問題回報

狀態:

開啟

元件:

(無)

里程碑:

(無)

優先權:

5 - 中

嚴重程度:

5 - 中

處理結果:

無

檔案:

無

細節

類似分書検索の特徴語抽出の条件について

■環境
Redhat Enterprise Linux 4 U5
ludia 1.3.1 (mecab-0.96 ipadic-2.7.0 senna-1.0.9
postgresql 8.2.4

■設定
postgres.conf
・ludia.max_n_sort_result = 100000
・ludia.enable_seqscan = on
・ludia_sen_index_flags = 31
・ludia.max_n_index_cache = 16
・ludia.initial_n_segments = 2048

■DB
・TABLE : id int4,data text
・DATA : id = 1,data = (ライオン、ゾウ)
・INDEX : fulltext ※形態素

■現象

特徴語の抽出条件は文章中で出現頻度が高い語のはずなので

１．ヒットするケース
whre DATA @@ '*S1 "ライオン　ライオン　トラ"'
形態素の出現頻度は
ライオン:2
トラ:1
ライオンが特徴語となりヒットする

２．ヒットしないケース
whre DATA @@ '*S1 "トラ　ライオン　ライオン"'
形態素の出現頻度は
トラ:1
ライオン:2
ライオンが特徴語となりヒットする
と思ったのですがヒットしません。

私的な見解では文章の先頭の後が特徴語として扱われている
ように思えます。

よろしくお願いします。

Ticket History (3/6 Histories)

2007-10-31 09:01 Updated by: co-saka

評語

Logged In: YES
user_id=23292

ご報告ありがとうございます！！！
非常に助かります。

上記の件はsubversion上から取得できるSenna rev603を利用する
と、
正常な動作になります。
http://lists.sourceforge.jp/mailman/archives/senna-
dev/2007-October/000713.html

Subversionでの取得方法
http://qwik.jp/senna/Download.html

今後もバグなど見つかりましたら、
ご報告よろしくお願いします。

2007-11-09 11:57 Updated by: ssn

評語

Logged In: YES
user_id=31583

rev 610にて確認しました。

上記の異常ケース
＞２．ヒットしないケース
については対応確認出来ました。
ありがとうございます。

しかし新たに問題が…
３．ヒットするケース
whre DATA @@ '*S1 "トラ　トラ　ライオン"'
とした場合
形態素の出現頻度は
トラ:2
ライオン:1
トラが特徴語となりヒットしないと思ったのですが
ヒットしてしまいます。

仕様的に(fulltextで"*S1"の場合)
"検索文字列の中で一番出現頻度の高い形態素一つを検索文字列と
する"
で認識あってますよね？

また同じ出現頻度の物があった場合
例
検索文字列(トラ　トラ　ライオン　ライオン)
抽出後 (トラ　ライオン)
で *S1　とした場合はどちらで検索しに行くのでしょうか？

追加質問で申し訳ありませんが

よろしくお願いします。

2007-11-13 08:42 Updated by: co-saka

評語

Logged In: YES
user_id=23292

> で認識あってますよね？
若干違います。検索文字列の中で出現頻度が高く、かつ、検索対
象の全レコードの中で出現頻度が低い（0は除く）形態素が特徴語
になります。
> ３．ヒットするケース
この場合は、検索対象が「ライオン、ゾウ」であるため、出現頻
度が0であるトラは特徴語になりません。

検索文字列が一般的な文章である場合に、検索文字列の中の出現
頻度だけで特徴語選出を行うと、「は」「の」などの助詞が特徴
語になってしまい、類似文書検索の意味がなくなってしまいま
す。

> また同じ出現頻度の物があった場合
rev610では、出現頻度が等しい場合は、先にインデックスに登録
された形態素が優先されます。しかし、これはrev610の仕様であ
るため、今後変わる可能性があります。

2007-11-13 11:44 Updated by: ssn

評語

Logged In: YES
user_id=31583

問題解決しました。ありがとうございます。

類似検索のロジックについてはマニュアル等に載っていないと思う
のですが、
何か別のドキュメントに書いてあるのでしょうか？

2007-11-16 08:57 Updated by: co-saka

評語

Logged In: YES
user_id=23292

類似検索のドキュメントについては、
下記リンクしかありません。
http://qwik.jp/senna/query.html
LudiaのREADMEにも書いたほうが良さそうですね。

2007-11-16 10:08 Updated by: ssn

評語

Logged In: YES
user_id=31583

回答ありがとうございます。

sennaのサイトに類似検索について多少書いてあるのは知っていた
のですが、
できれば
実際こういう検索をしたらこれがhitする
というような明示的な解説が欲しいと思いました。

たぶんこれはludiaではなくsennaへの要望ですので、場違い的な質
問申し訳ありません。

Attachment File List

No attachments

Ludia

待辦事項 #11202 待辦事項列表 新增待辦事項 RSS

類似分書検索の特徴語抽出の条件について 啟用日期: 2007-10-26 19:29 最後更新: 2007-11-16 10:08 監視 ON OFF

細節 回覆

Ticket History (3/6 Histories) Show older Histories

2007-10-31 09:01 Updated by: co-saka

評語 回覆

2007-11-09 11:57 Updated by: ssn

評語 回覆

2007-11-13 08:42 Updated by: co-saka

評語 回覆

2007-11-13 11:44 Updated by: ssn

評語 回覆

2007-11-16 08:57 Updated by: co-saka

評語 回覆

2007-11-16 10:08 Updated by: ssn

評語 回覆

Attachment File List

編輯

待辦事項 #11202
待辦事項列表新增待辦事項 RSS

類似分書検索の特徴語抽出の条件について

啟用日期: 2007-10-26 19:29 最後更新: 2007-11-16 10:08

監視

細節

Ticket History (3/6 Histories)

評語

評語

評語

評語

評語

評語