[Scim-imengine-dev 865] cannadic 改変版をアップロードしました

Back to archive index

UTUMI Hirosi utuhi****@yahoo*****
2006年 1月 8日 (日) 19:15:19 JST


内海です。
cannadic の改変版をアップロードしました。
多少は古めかしさが取れるのではないかと思います。
http://www.geocities.jp/ep3797/anthy_dict_01.html


かな漢字変換エンジンにとって辞書の精度と形式は極めて大事です。
例えば頻度が間違っていると、
  しせいどう #KK*10 至誠堂 #KK*9 資生堂
変換エンジンは "至誠堂" を第一候補にしてしまいます。

辞書の形式が複雑だと、登録を間違いやすくなります。
  かくめい #T35*135 革命
-> "かく冥する" と変換される。
(この場合は "かくめい #T30*135 革命" と登録する必要がある)

cannadic は 頻度指定を人間が適当に行っているので、
当たり外れが大きくなります。
同音異義語や読みの一部がかぶる単語の頻度調整も大変です。


これに対して Sumibi辞書では次のように辞書の生成を行います。
1. 標準的な文体で書かれたテキストファイルを用意する。
2. テキストファイルに対して SKKdic の L辞書の単語を当てはめていく。
3. 単語と単語の結び付き(共起関係)を抽出する

かな -> 漢字 の変換は次のように行います。
1. わかち書きで入力する
さむい ふゆが やって きた。
2. 語と語の結び付きを判断して変換を行う
寒い冬がやってきた。


cannadic を用いたかな漢字変換を
品詞と頻度を元に文章を作り上げる "創造的変換" とすれば、
sumibi辞書 を用いた変換は
抽象化した文章データを元にした "復元的変換" と言えるように思います。

sumibi辞書の良いところは、人間が手動で編集する必要がないところです。
恣意性が混入しない。
"標準的な文体で書かれたテキストファイル" を変更すれば
音楽関係に強い辞書や口語関係に強い辞書を生成することもできる。

この仕組みは日本語に特化したものではないので、
中国語の L辞書のようなものがあれば、中国語でも利用できることでしょう。


Sumibi の small 辞書を昨年末に kiyoka さんが公開なさっています。
http://lists.sourceforge.jp/mailman/archives/sumibi-dev/2005-December/000260.html
http://www.sumibi.org/sumibi/sumi.html
圧縮状態で 48 MB ですから(解凍すると 213 MB)、
ぎりぎりディストリビューションに載せられるかもしれません。
(頻度の低い共起関係を削れば、もっと小さくなるのかも)

Sumibi の変換システムはシンプルなので、scim-sumibi が
現れたらとてもうれしいです。
mecab を間に挟むと わかち書きを手動で行う必要がなくなるので、
  さむいふゆがやってきた。 -> (mecab) さむい ふゆ が やってき た 。->
  (sumibi) 寒い冬がやってきた。
さらに使いやすくなるかもしれません。
(精度は落ちるかもしれませんが)


検索しているといくつか参考になる資料にぶつかりました。
「日本語ワープロを開発した森健一さん」
http://www-lib.shinshu-u.ac.jp/seni/online/no41/2.html
初期の段階で
> 新たに文法を作り出して解明した「精緻文法」と、
> 語順により現れる語彙の組み合わせが決まる「共起関係*1」
を組み合わせて変換エンジンを作られていたことに驚きました。

「動詞と名詞の意味的共起関係を用いた同音異義語のかな漢字変換」
http://unicorn.ike.tottori-u.ac.jp/1997/motonaga/paper/NLC_1999_7/
> 結合価パターンを用いた同音異義語のかな漢字変換の効果を評価した。
(snip)
> この結果、同音異義語の中から正解表記を決定できた文は、
> 動詞の場合で33%、名詞の場合では22%であった。候補数が減少した文は、
> それぞれ49%と37%であった。また、絞り込めなかった候補を
> ランダムに選択すると仮定し、全体をランダムに選択する場合と比較すると、
> 正解率が動詞では25%から48%に、名詞では34%から47%に向上した。

「ChasenとKakasiとMeCabの形態素解析・わかち書きの比較」
http://nomadscafe.jp/test/keitaiso/index.cgi
Web上で動作比較ができます。

有用な資料を公開してくださった皆様に感謝。


--------------------------------------
Yahoo! Mail - supported by 10million people
http://pr.mail.yahoo.co.jp/mail_pr/



Scim-imengine-dev メーリングリストの案内
Back to archive index