[Anthy-dev 3332] Re: ja.wikipedia を解析して名詞の頻度リストを作りました

Back to archive index

UTUMI Hirosi utuhi****@yahoo*****
2007年 1月 26日 (金) 21:22:38 JST


// To: Anthy-dev
// Bcc: 大泉さん

内海です。

動詞以外は ipadic の品詞コードから cannadic の品詞コードに
簡単に置き換えられそうなので、
スクリプトを改変して 動詞, 助詞, 助動詞, 接尾 以外の単語を
全て取り出して頻度を算出しました。
形容詞は mecab では活用語尾込みで出力されるのですが、
少し操作して語幹を取り出しました。
http://www.geocities.jp/ep3797/anthy_dict_01.html

形容詞の頻度表は
wikidic-base-20070126.tar.bz2
の中に入れています。
機械的に語幹を抜いているので、一部手作業で修正する必要があります。

generate-wikidic-0.0.2 には cannadic 風のファイルを出力するスクリプトを
付けています。
サンプルの出力結果は
generate-wikidic-0.0.2/samples/result/wiki10-all-cannalike
にあります。
使いかたは README をお読みください。

//
かなりマイナーな話題なので、今後 この件は ML に送らず
大泉さんと直接やりとりします。
--------------------------------------
Start Yahoo! Auction now! Check out the cool campaign
http://pr.mail.yahoo.co.jp/auction/




Anthy-dev メーリングリストの案内
Back to archive index