Re: 郵便番号のデータ (Anthy-dev 3782) - Anthy

徒然なるままに、郵便番号を見ています。

NIIBE Yutaka wrote:
> Git のリポジトリを作って、郵便局の郵便番号の CSV のデータを入れました。
> 
> http://git.debian.org/?p=pkg-anthy/postal-code-jp.git;a=summary

* zipcode.t の出自は?

anthy の zipcode.t はどこから来たものなのでしょうか。大元が郵便局なのは
間違いないとしても。

2001 年5月から2002年頭にかけての canna-yubin というパッケージを発見しました。

    https://build.opensuse.org/package/files?package=canna-yubin&project=openSUSE%3AFactory

SKK の Open Lab に下記の説明を発見しました。

    http://openlab.jp/skk/skk/dic/zipcode/README.ja

SKK は Emacs で処理して作っている模様です。CVS あるいは tar ball の配布
なので今、取ってくる気力がありません。ブラウズできるのであれば見たけれど。

* 事業所データも入れますか?

事業所データも入れないといかんですか。

* index を作ってみる実験

cmph (http://sf.net/projects/cmph )というライブラリで 7桁の郵便番号の
index を(chm で)作ってみたらファイルサイズは 1MB 弱でした。index のファ
イルは機種依存なので、「どうにかなりませんか?」と作者に連絡しました。

SKK の入力のように 151* と入力して候補を出したいとなると trie にするの
ですか。

Theppitak さんの trietool-0.2 でファイルサイズは 2MB 以上です。フォーマッ
トが機種依存かどうかは確認していません。

* 利用したいデータ形式の考察

0600001 で、元データは

	北一条西（１〜１９丁目）

ですが、これを

	北一条西１丁目
	北一条西２丁目
	...

と展開しても日本語入力の際には(特に19丁目の人には)嬉しくないような気が
します。「北一条西（１〜１９丁目）」を出して手で編集する... という使用
形態でいいかも。

「以下に掲載がない場合」と出すのはおかしいですね。

Web アプリでリストから選ぶ時には一つ一つに分かれている方が、嬉しいですか。

Web アプリでリストから選ぶというと、1400002 から

	東品川一丁目
	東品川二丁目
	東品川三丁目
	東品川四丁目

と出したいところですが、このように出すには、今、ソースとなっている郵便
番号データに加えて、この場合だと東品川という地域が 1から4丁目で構成され
るというデータが必要になります。

細かいデータがあれば、「以下に掲載がない場合」、「*一円」、「*(その他)」
という記述をワイルドカードではなく、具体的に特定する事も可能でしょうか。

住所のデータについて丁目の粒度までの情報は、LASDEC が保守している模様で
す。

    http://www.lasdec.nippon-net.ne.jp/cms/11,515,34.html

むぅ。ここで使われている用語がメインフレームの感がします。
-- 

Anthy

[Anthy-dev 3782] Re: 郵便番号のデータ