[LE-talk-ja 126] Re: オフラインミーティングの*個人的な*議論のまとめ

Back to archive index

Kazuhiro Kazama kazam****@mac*****
2006年 5月 18日 (木) 12:44:45 JST


On 2006/05/18, at 9:56, NUMATA Toshinori wrote:
>> ・Unicodeからレガシーエンコーディングに戻す時の変換表に手
>> を加えて,文字化けをより広く回避するような対策もおこなわない(森
>> 山さんによると,この提案が却下された実例があるらしい).
>
>  これは:
>
>     「JIS X 0208 から Unicode に変換するときに,
>     1区33点“波ダッシュ”を U+301C WAVE DASH に変換する処理系と,
>     U+FF5E FULLWIDTH TILDE に変換する処理系とが混在するので,
>     Unicode から JIS X 0208 に変換するときは,U+301C も U+FF5E も
>     同じ1区33点に変換したい」
>
>     と提案したら,規格適合性の観点から(?)拒否された
>
> といった話ですよね.
> (具体例でいわないとわかりにくいので.)

どうも補足ありがとうございます.

# 時間がなかったのと,森山さん本人が補足してくれるだろうと思ったので 
(笑)

ただ,「規格適合性」という言葉は多少微妙です.

実は,一時期Unicode Consortiumでは,彼らが配布していたレガシーエンコー 
ディングとUnicodeとの対応表がいろいろ問題を引き起こすので,これは規格 
の一部でないと削除したことがあったと思います(その後復活しましたが). 
そういう意味では,Unicode Consortium自身は,公式には規格の一部とはみな 
していないのではないかと思います.JISでは,若干含みを持たせた規定をし 
ていますし.昨夜も変換表の議論もありましたし,グレーゾーンなのかも.

それで,この対応方法には,3種類あると思います.

1, 公式に配布されている規格,ないしは実装に完全に一致
2, 1に,他で符号化文字集合でUnicodeの異なる符号位置に変換される文字も 
サポート
3, 文字集合は一致するが,まったく独自の変換表

これで言及しているのは2の場合で(←これでよいですか?>森山さん),規 
格に適合する(が,他の符号位置も考慮される)とも考えられなくはないと思 
います.ただし,この場合には,他の文字符号化への依存性が入ってしまう 
(たとえば,新しい異なるポリシーの文字符号化コンバータを追加したら,他 
も修正しなければいけないのか?)ことになり,やっかいです.結局,この種 
の問題が生じるのを嫌って,厳格に規定通りに実装するという意見が支持され 
るのだと思います.

もちろん,異なる意見の人達もいるようです.

>> 3, eucJP-ms
> ...
>> ・シフトJIS符号化(不可能),JIS符号化は考
>> えない.
>
>  つまり,ISO-2022-JP-1 や ISO-2022-JP-2 のような JIS X 0212 を含む
> ISO-2022-JP 系エンコーディングに CP932 の拡張文字を追加するような
> ことは考えない,と.

eucJP-msは,IBM拡張文字が一部入っているので,ISO-2022-JP-1,2と完全に互 
換じゃないと理解してたんだけど,間違いだったりします?

これ意外に,「ISO-2022-JP-1 や ISO-2022-JP-2は誰もつかってない/必要と 
してないよねえ」という状況が根底にあります.
---
風間 一洋 (kazam****@mac*****)





Legacy-Encoding-talk-ja メーリングリストの案内
Back to archive index