[groonga-dev,04373] Re: 転置インデックスカラムについてご教示頂きたく

Back to archive index

HorimotoYasuhiro horim****@clear*****
2017年 5月 31日 (水) 18:32:40 JST


To:石橋さん

こんにちは。堀本です。

「select Terms」の結果、表示されている、「message_index」は「_key」で
検索を行った場合に何件程度Hitするかの推定値です。

例えば [4,"マクドナルド",1] であれば、「マクドナルド」で検索した際に、
1件程度Hitしそう という意味です。
あくまでも、推定値なので、正確な値ではありません。

以上です。失礼いたします。

On 2017年05月24日 18:12, 石橋 卓見 wrote:
> 
> 各位様
> 
> 大変有用なGroonga、ならびにMroongaをいつも利用させていただいております。
> 石橋と申します。お忙しいところ恐縮ですが、1点質問をさせて下さい。
> 
> 
> 以下の手順にて、文書テーブル(Logs)と、全文検索の為の索引テーブル
> (Terms - message_index)を作成し、文書テーブルにサンプルデータを
> 3行 登録致しました。
> --------------------------------------------------------------------
> $ groonga -n /tmp/sample.db
>> table_create Logs TABLE_NO_KEY
>> column_create Logs message COLUMN_SCALAR Text
>> table_create Terms TABLE_PAT_KEY ShortText \
>   --default_tokenizer TokenMecab \
>   --normalizer NormalizerAuto
>> column_create Terms message_index COLUMN_INDEX|WITH_POSITION Logs message
>> load --table Logs
> [
> {"message": "【衝撃】マクドナルドが公式に「ベッキーバーガー」を発売! その味はゲスなほどウマかった(笑)"},
> {"message": "ベッキー「気持ち分かる」ノンスタ井上に共感"},
> {"message": "ゲス不倫にお買い物中毒…20代女子が親に秘密にしていること3選"},
> ]
> --------------------------------------------------------------------
> 
> その後に、select Terms にてデータを確認したところ、期待通りMecabにて
> トークナイズされていることを確認出来ました。
> --------------------------------------------------------------------
>> select Terms --limit 999
> [[0,1495615305.558772,0.0003552436828613281],[[[47],[["_id","UInt32"],["_key","ShortText"],["message_index","UInt32"]],[13,"!",1],[23,"(",1],[25,")",1],[36,"...",1],[37,"20",1],[46,"3",1],[8,"「",11],[10,"」",13],[1,"【",1],[3,"】",1],[44,"いる",1],[33,"お",1],[21,"かっ",1],[5,"が",8],[45,"こと",1],[42,"し",1],[14,"その",1],[22,"た",1],[43,"て",1],[18,"な",1],[7,"に",11],[16,"は",1],[19,"ほど",1],[11,"を",1],[20,"ウマ",1],[17,"ゲス",20],[29,"ノンスタ",1],[26,"ベッキー",1],[9,"ベッキーバーガー",1],[4,"マクドナルド",1],[32,"不倫",1],[35,"中毒",1],[30,"井上",1],[38,"代",1],[6,"公式",1],[31,"共感",1],[28,"分かる",1],[15,"味",1],[39,"女子",1],[27,"気持ち",1],[12,"発売",1],[41,"秘密",1],[24,"笑",1],[2,"衝撃",1],[40,"親",1],[34,"買い物",1],[47,"$
>  BA*�",1]]]]
> --------------------------------------------------------------------
> 
> この時の結果 "message_index"についてですが、どのような意味があるのかが
> わからず、今回質問をさせていただきました。
> [17,"ゲス",20] の20の値の意味を教えていただけると助かります・・・
> ぱっと見たところ、出現数が多い程大きいように見受けられるので、スコアの
> ようなものでしょうか?
> 
> 元々、message_indexには、単語毎に、Logsテーブルのどの文書(id)に出現したか
> どうかの情報が入っているのかと思っておりました。
> # 例えば、「ゲス」という単語であれば、1,3 、「ベッキー」は 1,2 のようなもの
> 
> このような情報はGroongaより取得できるのでしょうか。
> 
> Groongaの内部的な仕組みについてよくわかっておらず、恐縮ですが、アドバイスを
> 頂けると助かります。
> 
> どうぞよろしくお願い致します。
> 
> 
> --
> 
> 株式会社システムソフト
>      システム事業部 情報テクノロジ部 
> 石橋 卓見 <ishib****@syste*****>
> 常駐先 ( KDDI研究所SS分室 ) 049-278-7507
> 携帯電話 090-9689-0997 自宅 04-2928-6313
> 
> 
> 
> _______________________________________________
> groonga-dev mailing list
> groon****@lists*****
> http://lists.osdn.me/mailman/listinfo/groonga-dev
> 




groonga-dev メーリングリストの案内
Back to archive index