Re: 分かち書きで、半角英数字部分を分かち書きしないようにしたい (mecab-users 233) - MeCab

寺西です。

Taku Kudo wrote:
> 
> それと、後述しますが、後処理でまかなえるように全形態素の情報を
> 完全な形で取り出せるような API を用意しています。(まだ不十分ですが)
> 特殊な機能を追加するよりはむしろ、API を充実させてなんでもユーザサイド
> でできるという方針をとりたいと考えております。

mecab コマンドを使う場合、その API が扱えるような新たな引数を追加
するということも考慮されているでしょうか?

> MeCab の出力フォーマットもしくは C/C++ API を使えば、ある単語が
> 元のテキストの何バイト目から何バイト目に出現したか分かるので、
> 元のテキスト中にスペースがあったかどうか区別することができます。

確かにそこだけに限ればそうですが、それで区別できるからといって、
後処理で目的の分かち書きが簡単にできるわけではありませんよね。

> %ps     開始位置
> %pe     終了位置

ところで、何となく終了位置が +1 された値のように感じますが、そういう
ものでしょうか。まぁ、それは仕様として。

> % mecab -F"%m(%ps-%pe) " -E "\n"
> filename.jpg 1024
> filename(0-8) .(8-9) jpg(9-12) 1024(13-17)
> filename .jpg1024
> filename(0-8) .(9-10) jpg(10-13) 1024(13-17)

元テキストを保存しておいて、

% mecab -F"%ps-%pe " -E "\n"

のように位置情報だけ取り出して加工した方が楽でしょうが、
それでも、位置情報から後処理するのは簡単ではないように思います。
できないわけではないけれども、あまり効率的な方法とは思えません。

何かうまい後処理があれば良いのですが...。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-****@asahi*****
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E

MeCab

[mecab-users 233] Re: 分かち書きで、半角英数字部分を分かち書きしないようにしたい