Yusuke TABATA
yusuk****@w5*****
2005年 9月 11日 (日) 11:29:20 JST
田畑です。 anthyで実験的に実装中の機能を説明してみます。 (1)疎行列 (2)逆変換を利用して実現したchasen or kakasi的機能(形態素解析器) をつけてみました。この二つがあれば、以前に柳田さんに提案していただいた ような手法を含めて色々なことができるのではないかなと思っています。 #参考 http://anthy.sourceforge.jp/uim_conference_detail.html#lightning ソースコードは今のところ、gitとcogitoというツールを使って cg-clone -s http://anthy.sourceforge.jp/anthy-git/yusuke/ などとやると取得できるようにしています。 疎行列の方は単なるデータ構造で、src-diclib/matrix.cに入っていて、 今のところ共起関係の検索に使っています。 形態素解析の方はanthyをインストールした状態で、 cd corpus; make -f Makefile.corpus; ./a.out とやると実行できるはずです。 わざと逆変換を間違えている例を出しますが、次のようなのが出てきます。 >segments: 3 >indep_word id=3440664 わたし #T わたし >dep_word hash=677676 の >indep_word id=2410110 なまえ #T 名前 >dep_word hash=677692 は >indep_word id=2246508 でんぱた #T 田畑 >dep_word hash=66401047 です chasenやkakasiと違ってanthyが内部で持っている品詞情報を 使えるので色々と便利になると予想しています。