Re: wikiのコーパス用例文収集 (Anthy-dev 3408) - Anthy

小町です。

At Tue, 06 Mar 2007 08:16:36 +0900,
NOKUBI Takatsugu wrote:

>   私も、日本語シソーラスを自動生成したり、大量の例文からSKK辞書に品詞
> を自動割り当てしたい、などとという野望があって、そのためにさまざまなと
> ころからテキストをとってくる方法としてPlaggerを使おうと思っています。
> http://plagger.org/

なるほど。日本語では自由に使うことのできる英語の WordNet
http://ja.wikipedia.org/wiki/WordNet のようなシソーラスがないので、シ
ソーラスの自動生成は最近やろうかなあと思っていたところです。といっても
巨費を投じて作れるわけでもないし、そんな人手もかけられないので、
Wikipedia 程度の大きさのデータから作る感じで考えていました。

SKK 辞書への品詞割り当てもできそうですよね。SKK 辞書使えば単語の区切り
は分かるので、そういう単語区切りにもっともなりそうな品詞を推定する、と
かいう感じですね。

>   以前はWebクローラのWIREを使ってやろうと思い、SWIGによるbindingを作っ
> ていろいろ試していたのですが、コーパスやシソーラスなど、信頼できるテキ
> ストにしぼって集めるのであればPlaggerの方がいいだろうと今は思っていま
> す。
> http://www.daionet.gr.jp/~knok/trac/trac.cgi/wiki/Wire-Swig

紹介どうもありがとうございます。Web データ、あまり考えずに集めるとゴミ
ばかり(あるニュースサイトの内容がほぼ同一のままコピーされまくっていたり、
もしくはアダルトサイトばかり収集したり)になってしまうので、Web をコー
パスにするにしても信頼性の高いデータがほしいと思っています。Wikipedia 
はそういう意味でサイズとしてもそこまで小さくなく、大きすぎもせず、けっ
こういい線行っているとは思うのですが、やはり出てこない表現は出てこない
ので、なんらかの方法で適当にデータ集めてサブコーパス作る必要あるだろう
な、と考えています。

こういう感じのデータがほしい、とかいうとき、キーワード何個か入れるか、
もしくはサイトを何個か指定するだけで、それに似たデータを集めてきてくれ
る仕組みがあるといいですよね。Plagger で集めるという発想なかったので、
参考になりました。ちょっとその方向も検討してみます。

ではでは

-- 
Mamoru KOMACHI <usata****@usata*****>, <mamor****@is*****>
Nara Institute of Science and Technology

Anthy

[Anthy-dev 3408] Re: wikiのコーパス用例文収集