Re: wikiのコーパス用例文収集 (Anthy-dev 3416) - Anthy

小町です。

At Tue, 06 Mar 2007 23:00:26 +0900,
Yusuke TABATA wrote:

> #開発に割く時間を減らそうとしている時に限って
> #面白いものが出てきますね ;)

まだまだがんばってください ;-)

> まず、できればwikiに貼るんじゃなくてメールかなんかで
> 送ってもらえる方が取り込むときに気が楽です。

なるほど。メールアドレスは田畑さんのアドレスがいいでしょうか？

> それから、フォーマットは
>  「|よみを|かく| |読みを|書く|」というふうになり、
> 変換前の文字列に対してどう区切るのかのマークが必要です。

変更しました。

> 茶筌+南瓜でできるんですね。
> 茶筌の出力に対して形態素が自立語か判断がつけば係り受けの
> 解析までは要らないんじゃないかと思ったりしますが、
> 省力化でしょうか？

はい、実際は茶筌が読み付与、飲茶(YamCha)が文節区切り、南瓜が文節間の係
り受けを見ているので、茶筌と飲茶まであればできますが、飲茶で作るより南
瓜で作ったほうが手抜きできる(南瓜が自動で飲茶と茶筌を呼んだ結果を保持
してくれる)ので、こうしてあります。

> anthyのbuilt inの形態素解析器(anthy-morphologica-analyzer)で
> 同じようなことをやろうとも思ってて、使えれば素性情報
> なんかもそのまま使えるのですが、残念ながら性能が不足してるっぽいです XD
> 
> 一文一文コピペするのも疲れるので、バッチで処理する方法が
> 欲しいですね。その前にどこの文を取ってくるかを
> 解決しないといけませんが…

そうですねえ。問題ない文を入れないと変換結果として取り込めませんの
で……。

> #
> 目の前の文を入れた結果
> 「てきとうなかなかんじまじりぶんをしたのいちこうにゅうりょくぶぶんにはりつけてぼたんをおしてください。
>  |適当な|かな漢字混じり文を|下の|1行入力部分に|貼りつけて|ボタンを|押してください。|」

|てきとうな|かなかんじまじりぶんを|したの|いちこうにゅうりょくぶぶんに|はりつけて|ぼたんを|おしてください。| |適当な|かな漢字混じり文を|下の|1行入力部分に|貼りつけて|ボタンを|押してください。|

という感じになります。

-- 
Mamoru KOMACHI <usata****@usata*****>, <mamor****@is*****>
Nara Institute of Science and Technology

Anthy

[Anthy-dev 3416] Re: wikiのコーパス用例文収集