alt-cannadic (20110208) | 2011-02-08 22:51 |
alt-depgraph (20100120) | 2010-01-21 00:56 |
alt-cannadic/extra/ 以下には、EUC-JP(JISX0208) では出せない文字を含んだものを集めた UTF-8 の辞書が入っています(除く gt-tankanji-okuri-std.t)。
これらの辞書を使えば、丸数字やローマ数字、各種記号、特殊な人名漢字などが出せるようになります(尤も、単漢字以外はまだスカスカですが…)。
※090921 版以降、gt-tankanji_hikanji-34.t はデフォルトで使うよう、同梱の dict.args.in を変更したので、丸数字やローマ数字は出せるようになっています。
ここでは、Anthy でこれらの辞書を使う方法を説明します。
なお、extra/ にある辞書は Canna では使えませんので悪しからず。
extra/ にある辞書を使うには、他に以下のものが必要となります:
extra/ にある使いたい辞書を ~/.anthy/imported_words_default.d/ 以下にコピれば終了。
※~/.anthy/imported_words_default.d/ は、なければ自分で作成。
IM の再起動や再ログインは不要で、コピった瞬間から使えるようです。
anthy.dic の作成方法自体は標準のものと同じです。dict.args.in の設定のみが異なります。
alt-cannadic-0?????/anthy/mkworddic/dict.args.in を適宜編集してお使い下さい。
例:
# # 辞書ファイルを生成するためのスクリプト # # ./mkworddic -f dict.args # # (すべての辞書を使う場合のサンプル # anthy.dic のサイズも大きくなる) # set_input_encoding eucjp read @top_srcdir@/alt-cannadic/gcanna.ctd # (中略) # set_input_encoding utf8 ← UTF-8 のセクション read @top_srcdir@/alt-cannadic/extra/gt-tankanji_hikanji-34.t read @top_srcdir@/alt-cannadic/extra/g-jiritu-34.t read @top_srcdir@/alt-cannadic/extra/gf-fuzoku-34.t read @top_srcdir@/alt-cannadic/extra/gc-fullname-34.t # read @top_srcdir@/alt-cannadic/extra/gt-tankanji_kanji-34.t read @top_srcdir@/alt-cannadic/extra/gt-tankanji_hikanji-uni.t #read @top_srcdir@/alt-cannadic/extra/gt-tankanji_okuri-std.t # # this command will make reverse dictionary build_reverse_dict # this command will make dictionary body in utf8 set_dict_encoding utf8 ← ここが"utf8"なのを確認 read_uc @top_srcdir@/mkworddic/udict write anthy.wdic done※注意: 途中に空行があるとそこまでしか読み込まれないようなので、文書末までコメント行でつなぐ必要があるようです。
extra/ に入れてある辞書は基本的にはすべて、「読み」に「t」(半角小文字)をつけて変換するようになっています。
※090921 版から、gt-tankanji_hikanji-34.t は読みからすべて「t」を外しました
例: あおうみがめt → 黿 さんt → 巑 しもやけt → 瘃
ただし、「読み」が数字や記号になっているものは「t」をつけずにそのままで変換します。
例: !? → ⁉ 11 → ⅺ
逆に、出したい文字が記号であっても、「読み」が数字や記号でないなら、「t」をつけます
例: けーけーt → ㏍ しょうわt → ㍼ じゅういちt → Ⅺ
ちなみに、gt_okuri.ctd, gt-tankanji_okuri-std.t は "送り仮名や助詞を含めた「読み」" に「t」をつけて変換します。
例: あうt → 会 あおるt → 煽 あたらしいt → 新 すでにt → 既 すなわちt → 即
尚、かな入力派の方など、「t」を読みとして入力できない方は、sed やエディタなどでお好きな別の文字に置換してお使いください。
例: 「t」の代わりに「ヶ」を使うようにする $ mv gt-tankanji_hikanji-34.t gt-tankanji_hikanji-34.t.orig $ sed 's/^\([^ ]\+\)t /\1ヶ /' gt-tankanji_hikanji-34.t.orig > gt-tankanji_hikanji-34.t
「t」なしの普通の読みで登録していると、変換したときにたとえば「あう」で「会」一字のみの候補が出てきてしまいます。しかも、先頭に出てしまったり…。これを避けるために「t」を付けて出さないようにしています。尤も、この辞書は入れなくても多分実用上問題ないと思います。
MS-IME や ATOK ように、普通の読みで変換しても「この候補には JISX0213 の文字が含まれてますよ」という情報を候補ウィンドウに表示できればいいんですが、あいにくそういうことができるものがないので、苦肉の策で、ユーザが入力する「読み」で区別するようにしています。
なので、「自分は別にそんな区別はしなくてもいい、普通の読みで出したい」ということなら、"t"を取って頂いて構いません。
(しかし、何で「t」にしたんだったっけか…??? 多分記号とかの方がいいと思うので、各自でお好きなものに置き換えるなり削除するなりして下さい)