[Anthy-dev 3327] ja.wikipedia を解析して名詞の頻度リストを作りました

Back to archive index

UTUMI Hirosi utuhi****@yahoo*****
2007年 1月 24日 (水) 22:25:06 JST


内海です。

ja.wikipedia の 20061220 付けの本文を mecab-ruby で解析して
読みが3文字以上の名詞の頻度リストを作りました。
このまま Anthy で使うことはできませんが、
参考用にアップロードします。
(手違いで取りこぼしている単語があるかもしれません)
http://www.geocities.jp/ep3797/snapshot/tmp/wikidic-noun.dic.bz2
(1.1 MB。wget で取得してください)

解析用に作ったスクリプト
http://www.geocities.jp/ep3797/snapshot/tmp/generate-wikidic-0.0.0.tar.bz2
(これだけだと途中までしか作れませんが、後は簡単にできると思います)

生成された辞書を眺めて思ったのですが、
百科事典では特殊な用語が見出しとして立てられていることがあるので、
その語が本文中で何度も使われている場合
日常語よりも頻度が上がってしまうことがあるかもしれません。
--------------------------------------
Start Yahoo! Auction now! Check out the cool campaign
http://pr.mail.yahoo.co.jp/auction/




Anthy-dev メーリングリストの案内
Back to archive index