TAKAOKA Kazuma
kazum****@jeans*****
2006年 2月 27日 (月) 20:55:48 JST
高岡です。 At Wed, 15 Feb 2006 09:34:56 +0900, TAKAOKA Kazuma wrote: > (3) EUC-JPで学習させたときとUTF-8で学習させたときで、推定値が異なる? この原因がわかりました。 mecab-dict-gen の部分が、EUC-JP でしか正常に動かなくなっていました。 src/tool.cpp:Tool::mktextdic() の部分で、property.set_property() をし ていないために、デフォルトの EUC-JP が使われています。 このために、素性エンコーディング時に文字種が正しくふられず、辞書に間違っ たコストが出力されていました。 mecab-dict-gen 内で文字コードの変換をおこなっていないのも、潜在的 に変な辞書をつくってしまう原因になるかもしれません。 あと、関係ないですが、Unix 系と VC で浮動小数点数を文字列化するときの 打ち切り桁数がちがうらしく、モデルファイルの内容が微妙にちがう結果になっ ています。 Linux での出力: -0.157662639258269760000886 Windows での出力 -0.157662639258269760000000 --- 高岡一馬 kazum-ta .at. jeans.ocn.ne.jp