Re: 重複符号化文字 (LE-talk-ja 228) - Legacy Encoding Project

"NARUSE, Yui" <narus****@airem*****> wrote:

> 基本的に CP* というのは Unicode 対応表のことである、
> とわたしは理解しているので、根拠になるかと。

その対応表の、Unicode でない方の集合は、何と呼べば
良いのでしょうか。

> そもそも、このプロジェクトはLegacy Encodingを
> 使いやすくするプロジェクトではなく、
> Legacy Encodingをなるべく早期に混乱なく葬る
> プロジェクトのはずですので、

「使いやすくする」かどうかはさておき、早期に葬るなら
サポートしないというのが正解でしょう。
「基本仕様書」の 0.1 版では相互変換が目的とされて
います。
「既存の物まで含めて全部 UTF-8 に移せ」というのは
現実的でないというのが背景にある認識だと思うのですが
違いましょうか。


> VSについては、正式な規格と衝突する可能性は少なそうですが、
> 外字まがいの手法であることは確かです。
> そのような裏技的な手法をこのプロジェクトで用いるのには反対です。

裏技的かどうかが重要なのではなく、工夫すれば区別できるものを
区別できなくしてしまう事を仕様とするかどうかが重要でしょう。
実装はその次の話です。もちろん「そんな実装マージで困る」
というのはありえるでしょうが、実装する前に「仕様としてこう
なっちゃうんだけど、実装したらどうする?」とマージ先に相談
すれば良いことだと思います。

> 「内部処理用」というのが言い訳にならないことは、
> Shift_JISやEUCが外部に流れてしまっている事例等もありますし。

たとえば mule コードを外部的に積極的には使っている人というのを
聞いたことはないのですが、それはさておき、「流れてしまっている」
のは流した人の責任ではないでしょうか。包丁と殺人の関係と似た
様なものでしょう。


> 実装指向なプロジェクトであると解しています。
> レガシーから移行する際に必要な情報を集めて公開し、
> また移行に必要な実装を提供するプロジェクトであると。

だったら Unicode へのコンバータ作るだけで良いのでは。
それで解決すれわけないでしょ、というのが、このプロジェクトの
必要性の一つだと理解していますが。
--
のぞみ

Legacy Encoding Project

[LE-talk-ja 228] Re: 重複符号化文字