UTUMI Hirosi
utuhi****@yahoo*****
2007年 1月 24日 (水) 22:25:06 JST
内海です。 ja.wikipedia の 20061220 付けの本文を mecab-ruby で解析して 読みが3文字以上の名詞の頻度リストを作りました。 このまま Anthy で使うことはできませんが、 参考用にアップロードします。 (手違いで取りこぼしている単語があるかもしれません) http://www.geocities.jp/ep3797/snapshot/tmp/wikidic-noun.dic.bz2 (1.1 MB。wget で取得してください) 解析用に作ったスクリプト http://www.geocities.jp/ep3797/snapshot/tmp/generate-wikidic-0.0.0.tar.bz2 (これだけだと途中までしか作れませんが、後は簡単にできると思います) 生成された辞書を眺めて思ったのですが、 百科事典では特殊な用語が見出しとして立てられていることがあるので、 その語が本文中で何度も使われている場合 日常語よりも頻度が上がってしまうことがあるかもしれません。 -------------------------------------- Start Yahoo! Auction now! Check out the cool campaign http://pr.mail.yahoo.co.jp/auction/