[Anthy-dev 3829] Re: depgraph の機能の再実装について

Back to archive index

NIIBE Yutaka gniib****@fsij*****
2010年 7月 31日 (土) 15:27:14 JST


(2010年07月20日 09:21), NIIBE Yutaka wrote:
> 参考のため、結果を添付します。

7/20 の時点では付属語の属性の値の扱いに間違いがあり、だいぶ状態の数が
少なくなっていました。

その後、さらに実装を進め、DFA を使って anthy が動くところまで作りました。
40年前の Hopcroft さん、Gries さんの論文を読んで実装しました。

ブランチ feature/ancill-words-dfa で作業しました。とりあえず動いていま
す。

今のところ、20文字までの付属語と文字数に制限をつけて、

	# of NFA states: 15629
	# of DFA states (before minimization): 54165
	# of DFA states: 47883

となっています。

calctrans/proccorpus の出力する結果で比較して、付属語が master と同じく
認識されていることを確認しました。

一応ここまで作ってみて、思うことはいろいろありました。

まぁ、これって(現状でも)やりすぎで、あまりデキが良くないかもしれません。

おいおい論点を書いていきますが、とりあえずすぐに見てわかる所を。

calctrans/proccorpus の出力で付属語の長いのを見てみると下記のようなのが
あります。

	いことということにしておきましょう
	えるようになるんじゃないかと
	されてないんじゃないですかね
	されてはいないみたいですけど
	することになるんじゃないかと
	ったということなんでしょうか
	っていただけそうということで
	っていただけませんでしょうか
	ってくるなということぐらいでしょうか
	できるようなものではないんですけどね
	できるようになるみたいですが
	になってるんじゃないですかね
	になってるんじゃないんですか
	らせていただくことになりました
	らないということになるはずです
	るということになるんですかね

「良くやってる」と言えなくもないですが、これらは、

	* 「...こと」と「ということ...」で区切る
	* 「...ように」と「なるんじゃ...」で区切る
	* 「...じゃ」と「ない...」で区切る
	* 「...もの」と「では...」で区切る
	* 「...いない」と「みたい...」で区切る
	* 「...に」と「なる...」で区切る
	...

などわけてもいいのではないでしょうか。

また、下記はやりすぎかも。

	くなっているのかもしれません
	しているだけかもしれませんが

「しれません」て付属語として扱うのは微妙かも。
-- 




Anthy-dev メーリングリストの案内
Back to archive index