MORIYAMA Masayuki
moriy****@mirac*****
2006年 5月 16日 (火) 18:50:52 JST
森山です。 遅くなって申し訳ありません。 これまでの、LE-talk-ja メーリングリストでの議論のまとめです。 改めてアナウンスします。 明日、5/17(水) を、オフラインミーティング(BOF) を開きます。会場の方は まだまだ余裕がありますので、ぜひご参加ください。 http://legacy-encoding.sourceforge.jp/wiki/index.php?%A5%AA%A5%D5%A5%E9%A5%A4%A5%F3%A5%DF%A1%BC%A5%C6%A5%A3%A5%F3%A5%B0%282006%2F05%2F17%29 よろしくお願いいたします。 ------------------------------------------------------------------------ LE-talk-ja での議論のまとめ 作成日 2006/05/15 レガシー・エンコーディング・プロジェクト 森山 将之 ■本プロジェクトとしての方針 ・標準を作るわけではない。 ・必要とされているものを実装する。 ■スコープ ・Windows Codepage 932 で使用可能な文字を Unicode 経由で、日本語EUC 符号化方式、7ビットJIS(ISO-2022-JP)符号化方式に変換できるようにする。 ■全般 ◎ JIS X 0208 で定義されていない文字を扱う場合は UTF-8 を使うべき ・既存のシステムすべてが短期間で UTF-8 に移行するわけではない - レガシーエンコーディング + UTF-8 (Unicode) という混在環境への移 行と考えている。 - 過去の資産はレガシーエンコーディングで蓄積されている。 - 短期間のうちにレガシーエンコーディングが無くなり UTF-8 に取って 代わられるわけではない。 ・シフトJIS や日本語EUC から UTF-8 への移行コストが高い場合がある。 - シフトJIS や日本語EUC に依存して開発されている - UTF-8 でのバイト数増加の問題 - UTF-8 環境が整っていない ・レガシーエンコーディングからUTF-8への移行期間がありプロジェクト の成果物はこの期間で使われること想定している。 ◎ IANAレジストリに登録しますか? ・可能であれば。 ・登録する場合は、RFC への提案を先に行う。 ◎ JIS X 0213 対応は? ・JIS X 0213 対応は Unicode への移行が必要と考えているので、レガシー エンコーディングでの対応は考えていない。 ・Windows Vista での JIS X 0213:2004 対応は Unicode のみの対応で、 コードページの追加は行わないことになっている。 ◎ 携帯絵文字 ・今回の開発ではスコープ外 ◎ Macintosh ・今回の開発ではスコープ外 ■ISO-2022-JP-MS について ◎ MUA でのメール送信時に、機種依存文字などが送信されないように、文字 コード変換ルーチン側で対処すべきでは? ・特定の用途に依存した変換を行うようにすると、用途毎に別々の変換を 用意する必要が出てくると思われる。 - MUA に依存した変換を行うと、テキストエディタで 7ビットJISコー ドを編集する場合など、ファイルを開くことが出来たものが保存で きないなどの問題が発生する ・文字種の制限の範囲や処理の仕方は、アプリケーション毎に異なるため、 アプリケーション側で対処するのが望ましい。 ◎ Unicode により国際化された MUA に変更を加えることなく機種依存文字が 含まれたメールが受信できるように ISO-2022-JP という名前で使えるよう にすべき ・ISO-2022-JP という名前のまま拡張する事は考えていない。 ◎ ユーザ定義文字をサポートするのは望ましくない ◎ ISO-2022-JP-MS といった、新しいレガシーエンコーディングを定義すべき ではなく、すでにある CP50221 の方が望ましい。 ・CP50221 の方が望ましいのであれば、ISO-2022-JP-MS ではなく CP50221 を実装するのでも良いと考えている。 ・Windows のコードページ 50220, 50221, 50222 では、ユーザ定義文字 と Unicode との変換は「仕様」である。 ・ISO-2022-JP-MS ではなく CP50221 を実装する場合、仕様である以上、 ユーザ定義文字は取り除いて実装するのは望ましくないと思われる。 ・現実の問題として 7ビットJIS(ISO-2022-JP) で、Windows 機種依存文字 が扱えない事が問題になっていて、ユーザ定義文字が扱えない事が、問題 視されている事はあまり見かけない。その事を考えれば、ISO-2022-JP-MS、 CP50221 のどちらでも良いと考えている。 ・CP50221 のようなものを RFC として提案して受け入れられるか? - ESC $ B で 94x94 文字集合ではなく、114x94 文字集合を G0 集合に 指示する事になってしまう。(GL 領域からはみ出る) ◎ CP5022X を扱えるテキストエディタ ・EmEditor http://www.emeditor.com/jp/ - Windows がサポートしているコードページのみ ・Alpha http://alpha.sourceforge.jp/ - Windows がサポートしているコードページ + α (EUC-JIS-2004など) ■CP51932 (Windows の EUC-JP のコードページ) について ◎ CP51932 は必要ないのでは? ◎ Unicode に移行すれば済む話なのでは? ・日本語EUC を使い PHP + PostgreSQL といった組み合わせで、システム 構築している場合に、CP51932 が必要だと考えている。 ・Perl/CGI など、日本語EUC で開発されているシステムでは、CP51932 でデータが蓄積されているので、そのデータを正しく変換するためにも 必要と考えている。 ■困っている実例 [pgsql-jp: 30677] ACCESSから漢字3が文字化け http://ml.postgresql.jp/pipermail/pgsql-jp/2003-August/014239.html ※漢字3 = IBM拡張文字 [PHP-jp 10948] 漢字コードの変換方法を教えてください。 http://ns1.php.gr.jp/php-jp/archives/msg10914.html [PHP-users 28961] 文字コード変換について(はしごたか) http://ns1.php.gr.jp/pipermail/php-users/2006-April/029478.html [Python-ml-jp 1821] 機種依存文字の扱いについて http://www.python.jp/pipermail/python-ml-jp/2002-September/001818.html [mmjp-users 366] 機種依存文字と arch (pipermail) について http://mm.tkikuchi.net/pipermail/mmjp-users/2003-May/000366.html ------------------------------------------------------------------------ -- 森山 将之 moriy****@mirac***** ミラクル・リナックス株式会社