FrontPage

ZIPCODE-Romaji の配布ファイルについて

  • ZIPCODE-Romaji の成果物 (データファイル) は zip 形式で提供します。
  • データファイルのエンコードは シフトJIS です。
  • 郵便番号情報に含まれる文字セットは多種多様なため、CSV形式の場合はパーサーで処理しきれない場合があります。
    このため、データファイルは TSV (tab separated values) での配布となります。

主な配布ファイル

ZIPCODE-Romaji のアーカイブには以下のファイルが含まれます。

ZIPCODE-Romaji-README.txtテキスト配布ファイルのREADME
ZIPCODE-Romaji-FORMAT.txtテキスト配布ファイルの書式情報
ZIPCODE-Romaji.tsvTSVローマ字版 郵便番号辞書 (TSV)
common_names.txtテキストカタカナ語辞書
hankaku.txtテキストローマ字変換テーブル (半角)
zenkaku.txtテキストローマ字変換テーブル (全角)
seikei.txtテキスト整形用 正規表現一覧
wakachi.tsvTSV分かち書き辞書

ZIPCODE-Romaji

ZIPCODE-Romaji.tsv

  • ローマ字変換の生成物です。
  • 形式は TSV (Tab Separated Values) です。
  • データ例:
    0600000	北海道	札幌市中央区	以下に掲載がない場合	ホッカイドウ	サッポロシチュウオウク	イカニケイサイガナイバアイ	北海道 札幌市 中央区	ホッカイドウ サッポロシチュウオウク	Chu-o-ku, Sapporo-shi, Hokkaido	1
    0640941	北海道	札幌市中央区	旭ケ丘	ホッカイドウ	サッポロシチュウオウク	アサヒガオカ	北海道 札幌市 中央区 旭ケ丘	ホッカイドウ サッポロシチュウオウク アサヒガオカ	Asahigaoka, Chu-o-ku, Sapporo-shi, Hokkaido	0
    
フィールド名桁数用途出自
郵便番号7郵便番号の7桁表示日本郵便の郵便番号辞書
都道府県自由都道府県の漢字表記日本郵便の郵便番号辞書
郡市区自由郡市区の漢字表記日本郵便の郵便番号辞書
町村以下自由町村以下の漢字表記日本郵便の郵便番号辞書
都道府県(カナ)自由同上の半角カナ表記日本郵便の郵便番号辞書
郡市区(カナ)自由同上の半角カナ表記日本郵便の郵便番号辞書
町村以下(カナ)自由同上の半角カナ表記日本郵便の郵便番号辞書
分かち書き結果(漢字)自由都道府県郡市区町村の漢字表記生成物
分かち書き結果(半角カナ)自由都道府県郡市区町村の半角カナ表記生成物
分かち書き結果(ローマ字)自由都道府県郡市区町村のローマ字表記生成物
ワイルドカードフラグ10 - 完全一致用 / 1 - 前方一致可能生成物
  • ワイルドカードフラグについて
    • ワイルドカードフラグが設定されている項目は郵便番号が完全一致する項目が無い場合に使用します。
    • 郵便番号を末尾から一字ずつけずり、ワイルドカードフラグが設定されている項目に対して前方一致すると部分的な照合が可能です。
      • 例:
      • 初回検索時: SELECT * FROM zipcode_table WHERE zipcode = '1234567'
      • ヒットしない場合: SELECT * FROM zipcode_table WHERE zipcode LIKE '123456%' AND wildcard_flag = 1

ZIPCODE-Romaji

common_names.txt

  • カタカナ語辞書です。
  • 郵便番号辞書にはローマ字に直訳すると表記が長かったり、元が外国語だったため不自然になってしまう言葉が多く存在します。
    カタカナ語辞書ではそれらのカタカナ語を元の英字に戻すための対応表が記載されています。
  • 例:
メイジヤスダセイメイ=Meiji Yasuda Seimei,明治安田生命
スミトモフドウサン=Sumitomo Fudosan,住友不動産
セカイボウエキ=World Trade,世界貿易
ビルディング=Bldg
ミッドランド=Midland
パシフィック=Pacific
ミッドタウン=Midtown

形式: 変換元カタカナ表記=変換先英字表記 [,確認用漢字表記]


ZIPCODE-Romaji

hankaku.txt & zenkaku.txt

  • カタカナからローマ字に変換する際のヘボン式変換表(ただし一部変更)です。
  • 照合時に使い易いように文字長順にソートしてあります。
  • 整形用正規表現 と組み合わせて使用します。
  • 全角例:
    ギャ=gya
    ギュ=gyu
    ギョ=gyo
    ジャ=ja
    ジュ=ju
    ジョ=jo
    ヂャ=dya
    ヂュ=dyu
    ヂョ=dyo
    
  • 半角例:
    ギャ=gya
    ギュ=gyu
    ギョ=gyo
    ジャ=ja
    ジュ=ju
    ジョ=jo
    ヂャ=dya
    ヂュ=dyu
    ヂョ=dyo
    

ZIPCODE-Romaji

seikei.txt

  • カタカナからヘボン式ローマ字に変換した後に可読性を上げるために適用する正規表現の一覧です。
  • マッチ結果を置換する場合は最初のマッチ項目が \1 となります。
    検索置換用途
    tt([a-z])\1x\1x小書きの「ッ」は次の音の二連続にする
    tt単語末の「ッ」を削除する
    x小書きの母音を昇格する
    a{2,}a-母音が連続する場合は長音にする(ア)
    i{2,}i-母音が連続する場合は長音にする(イ)
    u{2,}u-母音が連続する場合は長音にする(ウ)
    e{2,}e-母音が連続する場合は長音にする(エ)
    o{2,}o-母音が連続する場合は長音にする(オ)
    ouo-ouはo-にする
    n([pbm])m\1pbmの直前のnをmにする
    ^(.*)-$\1単語末の長音を削除する

ZIPCODE-Romaji

wakachi.tsv

  • 都道府県郡市区町村 の分かち書き用の辞書です。
  • この辞書は整備中の不完全なファイルです。全ての区切りが正しいことを保証するわけではありません。
  • 形式は TSV (tab separated values) です。
  • 内容はソートされていません。
  • 住所をローマ字に変換する際には単語の順番を入れ替える必要が発生しますが、単語の分割点を特定するために使用します。
  • ビル名等に地名が含まれる場合に適切にローマ字変換するための対表を生成する際にも使用します。
  • 分割点末尾の漢字とカナが一致した場合に「町」を「-cho」等の表記にローマ字を修正する際に使用します。
北海道 札幌市 中央区	ホッカイドウ サッポロシ チュウオウク	ホッカイドウ サッポロシ チュウオウク
北海道 札幌市	ホッカイドウ サッポロシ	ホッカイドウ サッポロシ
北海道 札幌市 中央区 円山西町	ホッカイドウ サッポロシ チュウオウク マルヤマニシマチ	ホッカイドウ サッポロシ チュウオウク マルヤマニシマチ
北海道 札幌市 北区	ホッカイドウ サッポロシ キタク	ホッカイドウ サッポロシ キタク
フィールド名桁数用途
漢字名自由都道府県郡市区町村の漢字表記
半角カナ自由都道府県郡市区町村の半角カナ表記
全角カナ自由都道府県郡市区町村の全角カナ表記