NARUSE, Yui
narus****@airem*****
2006年 5月 18日 (木) 21:34:58 JST
成瀬です。 昨日はおつかれさまでした。 とりあえず、昨日の会と今日のメール群を見て、 このプロジェクトの方向性について、 概要なりなんなりに追記する必要があると考えました。 勝手にWikiに追記しようとも思ったのですが、 とりあえずWikiにFAQという項を作っておきました。 http://legacy-encoding.sourceforge.jp/wiki/index.php?FAQ 途中からこのMLを読んでいる方に、 MLのログを全て読んでもらうのはつらいと思われるので、 FAQを最初に読めば一通りの流れがわかるようにするとよいかな、と。 ところで、わたしの解釈で、「このプロジェクトの意義」案。 「Legacy Encoding Project」とは、そもそも、 レガシーエンコーディングを混乱なくフェードアウトさせようというもの。 (ミーディングでの乾杯の時に言われていた通り、 「レガシーエンコーディングの更なる発展と繁栄を祈る」 ものではないと、笑。) これを実現する手段として、[LE-talk-ja 118]にも挙げられている、 > Windows Codepage 932 で使用可能な文字を Unicode 経由で、日本語EUC > 符号化方式、7ビットJIS(ISO-2022-JP)符号化方式に変換できるようにする。 これが手段となる前提として以下がある。 * レガシーエンコーディングはJIS系、SJIS系、EUC系の三つ * 今時の文字コード変換はUnicodeによるUCS正規化で行われる * よって「キャラクタセット」とはUnicodeとの変換表のこと * 既に"ISO-2022-JP", "Shift_JIS", "EUC-JP"といった名前の変換表は、 各OSSが提供しているが、独自の変更が加えられていて、変更できない。 * 変換表のデファクトとしてWindows系のものがある。 以上のような事情から、 変換表の名前(キャラクタセット名)は既存のものを使えない ∵既存のものは別の変換表を指しているから →別の名前を定義する必要がある →かと言って全く新しいものを定義するのは混乱を助長する →CP932, CP51932, eucJP-ms, CP50221 (CP*の典拠はMicrosoftの実装、eucJP-msはTOG/JVC) -- NARUSE, Yui <narus****@airem*****> DBDB A476 FDBD 9450 02CD 0EFC BCE3 C388 472E C1EA