TSUCHIYA Masatoshi
tsuch****@imc*****
2007年 12月 8日 (土) 22:47:54 JST
土屋です. # 同内容のメールを送ったのですが,配送されないので再送します. 最近,mecab-ipadic を UTF-8 で利用しようとして気付いたのですが,EUC-JP な 辞書を使っている場合と,UTF-8 な辞書を使っている場合で,読み仮名付与の結 果が変化するようなのですが,これはそういうものでしょうか? 確認のためのサンプルコマンド列を以下に示します. % tar xzf mecab-ipadic-2.7.0-20070801.tar.gz % cd mecab-ipadic-2.7.0-20070801/ % ./configure --with-charset=utf8 % make % echo 高野山|iconv -f euc-jp -t utf-8|mecab -d `pwd`|iconv -f utf-8 -t euc-jp 高野山 名詞,固有名詞,一般,*,*,*,高野山,タカノヤマ,タカノヤマ EOS % make clean % ./configure --with-charset=euc-jp % make % echo 高野山|mecab -d `pwd` 高野山 名詞,固有名詞,一般,*,*,*,高野山,コウヤサン,コーヤサン EOS 他に気付いたのは,以下のような例です.なお,- で始まっている行が,UTF-8 な辞書での結果,+ で始まっている行が EUC-JP な辞書での結果です. -追従 名詞,サ変接続,*,*,*,*,追従,ついじゅう,ついじゅー +追従 名詞,サ変接続,*,*,*,*,追従,ついしょう,ついしょー -久島 名詞,固有名詞,人名,姓,*,*,久島,くしま,くしま +久島 名詞,固有名詞,人名,姓,*,*,久島,ひさしま,ひさしま -堀田 名詞,固有名詞,人名,姓,*,*,堀田,ほった,ほった +堀田 名詞,固有名詞,人名,姓,*,*,堀田,ほりた,ほりた -上谷 名詞,固有名詞,地域,一般,*,*,上谷,かみだに,かみだに +上谷 名詞,固有名詞,地域,一般,*,*,上谷,こうだに,こーだに 読み仮名を振るのは難しいので,当たらないのは仕方ないと思います.しかし, 同一内容の辞書を使っているのに,文字コードを変化させただけで,結果が変わっ てくるのはちょっとまずいような気がするのですが,どうでしょうか. -- 土屋 雅稔 ( TSUCHIYA Masatoshi )