Re: mecab 0.90rc9 (mecab-devel 16) - MeCab

高岡です。

At Wed, 15 Feb 2006 09:34:56 +0900,
TAKAOKA Kazuma wrote:
> (3) EUC-JPで学習させたときとUTF-8で学習させたときで、推定値が異なる?

この原因がわかりました。
mecab-dict-gen の部分が、EUC-JP でしか正常に動かなくなっていました。

src/tool.cpp:Tool::mktextdic() の部分で、property.set_property() をし
ていないために、デフォルトの EUC-JP が使われています。

このために、素性エンコーディング時に文字種が正しくふられず、辞書に間違っ
たコストが出力されていました。

mecab-dict-gen 内で文字コードの変換をおこなっていないのも、潜在的
に変な辞書をつくってしまう原因になるかもしれません。


あと、関係ないですが、Unix 系と VC で浮動小数点数を文字列化するときの
打ち切り桁数がちがうらしく、モデルファイルの内容が微妙にちがう結果になっ
ています。

Linux での出力:
-0.157662639258269760000886

Windows での出力
-0.157662639258269760000000

---
高岡一馬
kazum-ta .at. jeans.ocn.ne.jp

MeCab

[mecab-devel 16] Re: mecab 0.90rc9