Taku Kudo
taku****@chase*****
2006年 8月 13日 (日) 17:50:20 JST
内海様 工藤です。お返事が遅れて申し訳ございません。 > さて、mecab のダウンロードページでは > http://mecab.sourceforge.jp/#download > > Canna 辞書: 公開予定 > となっていますが、おおよその公開予定はいつごろでしょうか。 じつは、作成すらしておりません。公開はまだまだ先になるかと 思います。 > cannadic では単語の頻度を人間が勘で指定しているため、 > 日常では使われないような単語が第一候補になってしまうことがあります。 > 頻度を機械的に補正した cannadic が現れれば、 > Anthy など cannadic を使用した変換エンジンの精度が > 大きく上がるものと期待しています。 同意します。もっと統計処理を使って頻度情報をうまく提供できたらと 思っています。 > "cannadic改" をベースに 適切な頻度を付した辞書をリリースしてくださると > とてもうれしいです。 まずやらなければならないことをリストアップしておきます。 できれば手伝っていただけると非常に助かります。 1. cannna dic の機能語の整理 私の理解が乏しいかもしれませんが、canna dic には助詞や助動詞といった 付属語、機能語の単語が含まれていないような気がします。(おそらく canna 本体にハードコーディングされているのかも?) これらを明示的に単語として 取り出す必要があります 2. ipa 品詞体系とのアライメント これは結構厄介ですが、IPA の品詞体系と canna の品詞体系をできる限り 1対1対応で対応付けると統計処理が容易になります。 -- taku