Re: 重複符号化文字 (LE-talk-ja 233) - Legacy Encoding Project

成瀬です。

Nozomi Ytow wrote:
> "NARUSE, Yui" <narus****@airem*****> wrote:
> 
>>> その対応表の、Unicode でない方の集合は、何と呼べば
>> CP* に対応する文字集合、じゃないですかね。
>> CP932 でしたら Windows-31J でしょうが。
> 
> そうですか、知りませんでした。
> Unicode サポートしてなかったころからコードページと言っていた
> 記憶があったので、「コードページ(code page)とは文字セットのこと」
> というマイクロソフトの説明を鵜呑みにしていました。
> http://msdn2.microsoft.com/ja-JP/library/2x8et5ee.aspx

確かに由来はそうですし、語義もそうですが、
XMLにおけるencodingと同じものと理解しています。

>>> 裏技的かどうかが重要なのではなく、工夫すれば区別できるものを
>>> 区別できなくしてしまう事を仕様とするかどうかが重要でしょう。
>> 仕様としてしまうのが妥当かと思います。
>> どうしても区別したい場合は、文字コードのレイヤーでなく、
>> 一つ上のレイヤーで区別したほうが幸せになれるかなーと。
> 
> うーん。round trip や source code separation は
> 優先順位が高いと私は思いますが、人それぞれなのですね。

高いのは確かですが、重複符号化された文字まで分ける必要があるかというと、
疑問には感じます。

>> Mule と iconv は少々事情が異なると感じます。
>> libiconv の場合は外に流れるケースが少なからずあるかと思います。
> 
> どうやって?

アプリケーションからlibiconvを用いて、文字列を
CP932からNEC特殊文字とIBM拡張文字を区別するUnicodeに変換し、
そのままその文字列を外に流しちゃう人って絶対いますよね。

>> Unicode へのコンバータ作るだけで実装自体は終わりますね。
>> それだけで相互変換も可能になりますし。
> 
> では iconv が今回対象の文字コードをサポートしているのだから
> もういい事になってしまうのでは?

Perl/Encode等はiconvを使いませんから。
これらが自前で抱えているコンバータにも手を入れませんと。

-- 
NARUSE, Yui  <narus****@airem*****>
DBDB A476 FDBD 9450 02CD 0EFC BCE3 C388 472E C1EA

Legacy Encoding Project

[LE-talk-ja 233] Re: 重複符号化文字