NIIBE Yutaka
gniib****@fsij*****
2010年 6月 18日 (金) 11:56:15 JST
徒然なるままに、郵便番号を見ています。 NIIBE Yutaka wrote: > Git のリポジトリを作って、郵便局の郵便番号の CSV のデータを入れました。 > > http://git.debian.org/?p=pkg-anthy/postal-code-jp.git;a=summary * zipcode.t の出自は? anthy の zipcode.t はどこから来たものなのでしょうか。大元が郵便局なのは 間違いないとしても。 2001 年5月から2002年頭にかけての canna-yubin というパッケージを発見しました。 https://build.opensuse.org/package/files?package=canna-yubin&project=openSUSE%3AFactory SKK の Open Lab に下記の説明を発見しました。 http://openlab.jp/skk/skk/dic/zipcode/README.ja SKK は Emacs で処理して作っている模様です。CVS あるいは tar ball の配布 なので今、取ってくる気力がありません。ブラウズできるのであれば見たけれど。 * 事業所データも入れますか? 事業所データも入れないといかんですか。 * index を作ってみる実験 cmph (http://sf.net/projects/cmph )というライブラリで 7桁の郵便番号の index を(chm で)作ってみたらファイルサイズは 1MB 弱でした。index のファ イルは機種依存なので、「どうにかなりませんか?」と作者に連絡しました。 SKK の入力のように 151* と入力して候補を出したいとなると trie にするの ですか。 Theppitak さんの trietool-0.2 でファイルサイズは 2MB 以上です。フォーマッ トが機種依存かどうかは確認していません。 * 利用したいデータ形式の考察 0600001 で、元データは 北一条西(1〜19丁目) ですが、これを 北一条西1丁目 北一条西2丁目 ... と展開しても日本語入力の際には(特に19丁目の人には)嬉しくないような気が します。「北一条西(1〜19丁目)」を出して手で編集する... という使用 形態でいいかも。 「以下に掲載がない場合」と出すのはおかしいですね。 Web アプリでリストから選ぶ時には一つ一つに分かれている方が、嬉しいですか。 Web アプリでリストから選ぶというと、1400002 から 東品川一丁目 東品川二丁目 東品川三丁目 東品川四丁目 と出したいところですが、このように出すには、今、ソースとなっている郵便 番号データに加えて、この場合だと東品川という地域が 1から4丁目で構成され るというデータが必要になります。 細かいデータがあれば、「以下に掲載がない場合」、「*一円」、「*(その他)」 という記述をワイルドカードではなく、具体的に特定する事も可能でしょうか。 住所のデータについて丁目の粒度までの情報は、LASDEC が保守している模様で す。 http://www.lasdec.nippon-net.ne.jp/cms/11,515,34.html むぅ。ここで使われている用語がメインフレームの感がします。 --