Re: LE-talk-ja での議論のまとめ (LE-talk-ja 188) - Legacy Encoding Project

よしおかです。

> オフラインミーティングには参加できず残念でしたが、
> 資料が見られ助かっています。
> しかし、すみません、議論を読んでいてわからなくなりました。

今回のミーティングでも、メールでも、かなり明確に
言っていますが、cp932の文字を中心においています。
(これが良いか悪いかはもちろん議論の対象ではありますが)

> Hiro Yoshioka <hyosh****@mirac*****> wrote:
> 
> よ> クライアントがcp932でPHPとMySQLで組んでいるシステムがあったとして
> よ> MySQLとPHPがeuc-jpを使っていたとします。
> よ> それを運用している人が文字化けするからUTF-8に移行するかという話です。
> 
> cp932 には「はしご高」がある一方、euc-jp の高は「包摂高」なので
> euc-jp には「はしご高」も「くち高」もあり得ない (あってる?)、
> だから cp932 と euc-jp は本当は共存できず、UTF-8 に移行した
> ところで問題は厳密には解決しない。でも見た目それっぽいくらいなら
> できる、というレベルの問題だと思っているのですが、違いますか。

違います。cp932セントリックな立場なので、「はしご高」と「くち高」は
わけるという立場です。そのためにeucJPではだめで、eucJP-ms的なものが
必要ということになります。

符号化方式は日本語EUCだけど文字集合はcp932の文字集合という感じに
なります。

よ
--
Hiro Yoshioka
CTO/Miracle Linux Corporation
http://blog.miraclelinux.com/yume/


> 
> そういう意味では、
> 
> Tomoyuki Asakawa <tom****@asaka*****> wrote:
> 
> あ> 実際は、メールは、表面的には、MUAだけの問題で解決できるの 
> あ> で、単純な部類です。
> 
> と同じ程度だとも言えるし、MUA では実は解決していないとも言える気が。
> 
> あ> 問題は、メールに限らず、「それ」を格納し、「それ」を、
> あ> 取り出す時 の問題
> あ> どこに格納するかによって、「それ」が、変化してしまう。
> 
> 文字集合間に(厳密な意味での)互換性がない以上、不可避だと思います。
> 「それ」が格納先の「それ」になってしまう (「包摂高」を
> 「はしご高」と「くち高」の格納場所を持ちかつ「包摂高」の
> 格納場所を持たない系に格納したら、取り出せるのは
> 「はしご高」か「くち高」のいずれかであって「包摂高」ではない)
> のは当り前ではないかと。そう考えると Unicode との変換規則は
> レガシー側でという発想は理解できます。
> 
> そこまで細かい事を問うているとは思いませんが、
> 結局は無理な事を求めているのだし、だから実装をいろいろ
> 作らざるを得ないのではないかと思います。
> 包摂文字かどうか指定する拡張というのもかつて考えてみたことは
> あるのですが、アプリケーション依存 (そんなのマニアしか使わない
> ともいう) になりそうなのでやめました。
> 
> eucJP-ms というのは名前としてはちょっとアレなのでいっそのこと
> euc-CPナントカなどもっと直接的なものにしてはどうかと思いますが、
> UTF-8 に移行したところで解決しない問題なので、仮に移行コストを
> 度外視しても「UTF-8 にすればいいじゃん」とは言えないよなぁと
> 思っています。
> --
> ＮＯＺ 伊藤　希 (のぞみ)
> Ｏ　Ｏ
> ＺＯＮ 
> _______________________________________________
> Legacy-Encoding-talk-ja mailing list
> Legac****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/legacy-encoding-talk-ja

Legacy Encoding Project

[LE-talk-ja 188] Re: LE-talk-ja での議論のまとめ