Yusuke TABATA
yusuk****@w5*****
2007年 3月 6日 (火) 21:23:16 JST
田畑です。 Mamoru KOMACHI wrote: > 同音異義語の変換誤りの話だと、たぶん頻度の情報というよりは、近くにどう > いう単語が来ているかといった情報のほうが変換分けに有効なんではないかと > 思います。(そこは田畑さんが Anthy を MEMM 化したので、今後変わっていく > ところかなと想像しています) すいません、今はMEMMじゃなくなってます。 去年ぐらいに色々面倒だったので、最大エントロピーの分布にfittingさせるのを やめて、経験的確率をそのままハードコードしてます。 確率もある素性の組み合わせの出現する確率じゃなくて、 ある素性の組み合わせを出して誤変換にならなかった確率を 使うようにしてます。 memory basedな識別モデルというべきでしょうか。 あと、現時点では単語を素性とはしていないので、候補の順序には 手を付けられてないです。 -- -- CHAOS AND CHANCE! Yusuke TABATA