ChaKi.NET (3.16 Revision 653) | 2021-01-23 23:11 |
ChaMame (1.0.4) | 2020-01-14 17:04 |
Patch Files (TextFormatter for ChaKi.NET (2010/11/20)) | 2010-11-21 23:23 |
その他 (CaboCha-0.66/UniDic用モデルファイル) | 2013-02-18 17:00 |
旧版[ChaKi Legacy] (2.1.0 Build 202) | 2008-11-16 23:47 |
ChaKi.NETは、UTF-8でエンコードされた(*)テキストファイルをImport/Exportに使用します。
(*)Import時に限り、ShiftJIS, EUCも選択可能です。
このテキストファイルは、次の行を含みます。
行の特徴 | 内容 | Import対象 | Export対象 |
先頭が"#"で始まる行 | Cabocha形式にChaKi.NETが独自に拡張を加えた部分。詳細は拡張Cabochaフォーマットへのエクスポートを参照して下さい。 | なくてもよい | DOCID, DOCタグは常に付加される |
先頭が"*"で始まる行 | Cabochaが"-f1"オプション指定時に出力する文節・係り受けアノテーションを表す行。 | なくてもよい | 文節情報がなくても最低限文全体を含む文節を出力 |
EOS | 文区切り | 必須 | 常に出力 |
それ以外の行 | 1行が形態素解析により得られる1語に相当し、それぞれの語の情報を含む行。 | 必須 | 常に出力 |
注)
形態素解析器の種類および解析に使用する辞書の種類により、語の情報は異なる形式で出力されます。 ChaKi.NETでは、以下の組み合わせをデフォルトで用意しています。(カスタマイズすることもできます。インポート形式をカスタマイズするを参照。)
名称に"|Cabocha"が含まれるのは、これらの形式すべてに対してCabochaアノテーションを付加してもしなくてもよいことを意味するものです。Cabochaのアノテーション形式自体は、以下で説明する形態素の表現形式とは無関係です。
形態素解析器 | 辞書 | 名称 |
ChaSen | IPADIC | ChaSen|Cabocha |
Mecab | IPADIC | Mecab|Cabocha |
Mecab | UniDic | Mecab|Cabocha|UniDic |
ChaSen | UniDic | ChaSen|Cabocha|UniDic |
n.a. | n.a. | English|Cabocha |
ファイル内に異なる形式を混在させることはできません。
と ト と 助詞-格助詞-一般 O
※改行はありません。
Tabによって区切られる複数のフィールドによって構成されます。各フィールドには制御文字以外の任意の文字を使用できます。但し、PartOfSpeech, CType, CFormでは、"-"は階層のコネクタとして使用され予約文字となります。 フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。
プロパティ名 | 注 | |
1 | Surface | |
2 | Reading | Pronunciationとして、常にReadingと同じ文字列がimportされます |
3 | BaseLexeme | |
4 | PartOfSpeech | |
5 | CType | |
6 | CForm |
ゆく 動詞,自立,*,*,五段・カ行促音便ユク,基本形,ゆく,ユク,ユク O
※改行はありません。
第1カラムおよび最後のカラムのみTabによって区切られ、残りは","によって区切られた複数のフィールドによって構成されます。 各フィールドには制御文字および"*"以外の任意の文字を使用できます。 空白フィールドは、Importの場合は空白または"*"のどちらも利用可能です。Exportの場合は、常に"*"を出力します。 フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。
プロパティ名 | 注 | |
1 | Surface | |
2 | PartOfSpeech | 2-5カラムにはPartOfSpeechの4つの階層が分離されて格納されます。このカラムが最上位層です。 |
3 | PartOfSpeech | |
4 | PartOfSpeech | |
5 | PartOfSpeech | |
6 | CType | |
7 | CForm | |
8 | BaseLexeme | |
9 | Reading | |
10 | Pronunciation |
です 助動詞,*,*,*,助動詞-デス,終止形-一般,デス,です,です,デス,デス,和,です,デス,デス,デス,*,*,*,*,*,*,*,"形容詞%F2@-1,動詞%F2@0,名詞%F2@1",* O
※改行はありません。
第1カラムおよび最後のカラムのみTabによって区切られ、残りは","によって区切られた複数のフィールドによって構成されます。 各フィールドには制御文字および"*"以外の任意の文字を使用できます。 空白フィールドは、Importの場合は空白または"*"のどちらも利用可能です。Exportの場合は、常に"*"を出力します。 フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。
プロパティ名 | 注 | |
1 | Surface | |
2 | PartOfSpeech | 2-5カラムにはPartOfSpeechの4つの階層が分離されて格納されます。このカラムが最上位層です。 |
3 | PartOfSpeech | |
4 | PartOfSpeech | |
5 | PartOfSpeech | |
6 | CType | |
7 | CForm | |
8 | LemmaForm | |
9 | Lemma | |
10 | (orth) | ()で表示するカラムは、ChaKi.NETの検索キーとしては使用できません。カラムの意味についてはUniDicマニュアルを参照して下さい。 |
11 | Pronunciation | |
12 | Reading | |
13 | (gosyu) | |
14 | BaseLexeme | |
15 | (pronBase) | |
16 | (kanaBase) | |
17 | (formBase) | |
18 | (iType) | |
19 | (iForm) | |
20 | (iConType) | |
21 | (fType) | |
22 | (fForm) | |
23 | (fConType) | |
24 | (aType) | |
25 | (aConType) | |
26 | (aModType) |
です デス です 助動詞 助動詞-デス 終止形-一般 デス です デス です 和 デス デス デス "形容詞%F2@-1,動詞%F2@0,名詞%F2@1" O
※改行はありません。
Tabによって区切られる複数のフィールドによって構成されます。各フィールドには制御文字以外の任意の文字を使用できます。但し、PartOfSpeech, CType, CFormでは、"-"は階層のコネクタとして使用され予約文字となります。 フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。
プロパティ名 | 注 | |
1 | Surface | |
2 | Reading | |
3 | BaseLexeme | |
4 | PartOfSpeech | |
5 | CType | |
6 | Form | |
7 | LemmaForm | |
8 | Lemma | |
9 | Pronunciation | |
10 | (orth) | |
11 | (goshu) | |
12 | (pronBase) | |
13 | (kanaBase) | |
14 | (formBase) | |
15 | (iType) | |
16 | (iForm) | |
17 | (iConType) | |
18 | (fType) | |
19 | (fForm) | |
20 | (fConType) | |
21 | (aType) | |
22 | (aConType) | |
23 | (aModType) |
1 Pierre _ NN NNP SP 2 nn _ _ 2 Vinken _ NN NNP _ 9 nsubj _ _ 3 , _ PUNC , SP 2 punct _ _ 4 61 _ CD CD SP 5 num _ _ 5 years _ NN NNS SP 6 dep _ _ 6 old _ JJ JJ _ 2 amod _ _ 7 , _ PUNC , SP 2 punct _ _ 8 will _ MD MD SP 9 aux _ _ 9 join _ VB VB SP 0 root _ _ 10 the _ DT DT SP 11 det _ _ 11 board _ NN NN SP 9 dobj _ _ 12 as _ P IN SP 9 prep _ _ 13 a _ DT DT SP 15 det _ _ 14 nonexecutive _ JJ JJ SP 15 amod _ _ 15 director _ NN NN SP 12 pobj _ _ 16 Nov. _ NN NNP SP 9 tmod _ _ 17 29 _ CD CD _ 16 num _ _ 18 . _ PUNC . _ 9 punct _ _
Tabによって区切られる固定数のフィールドによって構成されます。各フィールドの割り当ては下記の通りです。 フィールドが空である場合、"_"によって空であることを明示します。
文末には空行が1つだけ置かれます。ファイルの最後にも空行が必要であり、これがないと最後の文がインポートされません。
プロパティ名 | 注 | |
1 | ID | 文中の語番号(1から開始) |
2 | FORM | Surfaceに相当 |
3 | LEMMA | Baseに相当 |
4 | CPOSTAG | PartOfSpeech1 |
5 | POSTAG | PartOfSpeech2 |
6 | FEATS | ※1 |
7 | HEAD | ※2 |
8 | DEPREL | ※2 |
9 | PHEAD | 使用しません |
10 | PDEPREL | 使用しません |
※1 FEATSには、"|"によって区切られた任意の属性を入れます(順序不問)。ChaKi.NETにおいては、以下の特殊な属性を用います。
※2 インポート時には、1語に対して1つの文節Segmentが作成され、HEADへの係り受けは文節間の係り受けとしてインポートされます。
was VBD be
Tabによって区切られる複数のフィールドによって構成されます。各フィールドには制御文字以外の任意の文字を使用できます。 フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。
プロパティ名 | 注 | |
1 | Surface | |
2 | PartOfSpeech | |
3 | BaseLexeme |