ChaKi.NETは、UTF-8でエンコードされた(*)テキストファイルをImport/Exportに使用します。

(*)Import時に限り、ShiftJIS, EUCも選択可能です。

このテキストファイルは、次の行を含みます。

行の特徴内容Import対象Export対象
先頭が"#"で始まる行Cabocha形式にChaKi.NETが独自に拡張を加えた部分。詳細は拡張Cabochaフォーマットへのエクスポートを参照して下さい。なくてもよいDOCID, DOCタグは常に付加される
先頭が"*"で始まる行Cabochaが"-f1"オプション指定時に出力する文節・係り受けアノテーションを表す行。なくてもよい文節情報がなくても最低限文全体を含む文節を出力
EOS文区切り必須常に出力
それ以外の行1行が形態素解析により得られる1語に相当し、それぞれの語の情報を含む行。必須常に出力

注)

  • 形態素を表す行の末尾に存在するNEを表す文字(Oなど)はChaKi.NETでは利用していません。
  • Export時、Cabochaの文節アノテーション中の主辞/機能語フィールドと係り関係のスコア("0/1 1.95822019"のような部分)にはすべて"0"が出力されます(i.e. "0/0 0"となります)。
  • Export時、固有表現タグは常に"O"となります。(Segmentアノテーションの使用が推奨されるためこのカラムは用いません。)

形態素解析器の種類および解析に使用する辞書の種類により、語の情報は異なる形式で出力されます。 ChaKi.NETでは、以下の組み合わせをデフォルトで用意しています。(カスタマイズすることもできます。インポート形式をカスタマイズするを参照。)

名称に"|Cabocha"が含まれるのは、これらの形式すべてに対してCabochaアノテーションを付加してもしなくてもよいことを意味するものです。Cabochaのアノテーション形式自体は、以下で説明する形態素の表現形式とは無関係です。

形態素解析器辞書名称
ChaSenIPADICChaSen|Cabocha
MecabIPADICMecab|Cabocha
MecabUniDicMecab|Cabocha|UniDic
ChaSenUniDicChaSen|Cabocha|UniDic
n.a.n.a.English|Cabocha

ファイル内に異なる形式を混在させることはできません。

ChaSen|Cabocha形式

と	ト	と	助詞-格助詞-一般			O

※改行はありません。

フィールド定義

Tabによって区切られる複数のフィールドによって構成されます。各フィールドには制御文字以外の任意の文字を使用できます。但し、PartOfSpeech, CType, CFormでは、"-"は階層のコネクタとして使用され予約文字となります。 フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。

フィールド一覧

プロパティ名
1Surface
2ReadingPronunciationとして、常にReadingと同じ文字列がimportされます
3BaseLexeme
4PartOfSpeech
5CType
6CForm

Mecab|Cabocha形式

ゆく	動詞,自立,*,*,五段・カ行促音便ユク,基本形,ゆく,ユク,ユク	O

※改行はありません。

フィールド定義

第1カラムおよび最後のカラムのみTabによって区切られ、残りは","によって区切られた複数のフィールドによって構成されます。 各フィールドには制御文字および"*"以外の任意の文字を使用できます。 空白フィールドは、Importの場合は空白または"*"のどちらも利用可能です。Exportの場合は、常に"*"を出力します。 フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。

フィールド一覧

プロパティ名
1Surface
2PartOfSpeech2-5カラムにはPartOfSpeechの4つの階層が分離されて格納されます。このカラムが最上位層です。
3PartOfSpeech
4PartOfSpeech
5PartOfSpeech
6CType
7CForm
8BaseLexeme
9Reading
10Pronunciation

Mecab|Cabocha|UniDic形式

です	助動詞,*,*,*,助動詞-デス,終止形-一般,デス,です,です,デス,デス,和,です,デス,デス,デス,*,*,*,*,*,*,*,"形容詞%F2@-1,動詞%F2@0,名詞%F2@1",*	O

※改行はありません。

フィールド定義

第1カラムおよび最後のカラムのみTabによって区切られ、残りは","によって区切られた複数のフィールドによって構成されます。 各フィールドには制御文字および"*"以外の任意の文字を使用できます。 空白フィールドは、Importの場合は空白または"*"のどちらも利用可能です。Exportの場合は、常に"*"を出力します。 フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。

フィールド一覧

プロパティ名
1Surface
2PartOfSpeech2-5カラムにはPartOfSpeechの4つの階層が分離されて格納されます。このカラムが最上位層です。
3PartOfSpeech
4PartOfSpeech
5PartOfSpeech
6CType
7CForm
8LemmaForm
9Lemma
10(orth)()で表示するカラムは、ChaKi.NETの検索キーとしては使用できません。カラムの意味についてはUniDicマニュアルを参照して下さい。
11Pronunciation
12Reading
13(gosyu)
14BaseLexeme
15(pronBase)
16(kanaBase)
17(formBase)
18(iType)
19(iForm)
20(iConType)
21(fType)
22(fForm)
23(fConType)
24(aType)
25(aConType)
26(aModType)

ChaSen|Cabocha|UniDic形式

です	デス	です	助動詞	助動詞-デス	終止形-一般	デス	です	デス	です	和	デス	デス	デス								"形容詞%F2@-1,動詞%F2@0,名詞%F2@1"		O

※改行はありません。

フィールド定義

Tabによって区切られる複数のフィールドによって構成されます。各フィールドには制御文字以外の任意の文字を使用できます。但し、PartOfSpeech, CType, CFormでは、"-"は階層のコネクタとして使用され予約文字となります。 フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。

フィールド一覧

プロパティ名
1Surface
2Reading
3BaseLexeme
4PartOfSpeech
5CType
6Form
7LemmaForm
8Lemma
9Pronunciation
10(orth)
11(goshu)
12(pronBase)
13(kanaBase)
14(formBase)
15(iType)
16(iForm)
17(iConType)
18(fType)
19(fForm)
20(fConType)
21(aType)
22(aConType)
23(aModType)

CONLL形式

1	Pierre	_	NN	NNP	SP	2	nn	_	_
2	Vinken	_	NN	NNP	_	9	nsubj	_	_
3	,	_	PUNC	,	SP	2	punct	_	_
4	61	_	CD	CD	SP	5	num	_	_
5	years	_	NN	NNS	SP	6	dep	_	_
6	old	_	JJ	JJ	_	2	amod	_	_
7	,	_	PUNC	,	SP	2	punct	_	_
8	will	_	MD	MD	SP	9	aux	_	_
9	join	_	VB	VB	SP	0	root	_	_
10	the	_	DT	DT	SP	11	det	_	_
11	board	_	NN	NN	SP	9	dobj	_	_
12	as	_	P	IN	SP	9	prep	_	_
13	a	_	DT	DT	SP	15	det	_	_
14	nonexecutive	_	JJ	JJ	SP	15	amod	_	_
15	director	_	NN	NN	SP	12	pobj	_	_
16	Nov.	_	NN	NNP	SP	9	tmod	_	_
17	29	_	CD	CD	_	16	num	_	_
18	.	_	PUNC	.	_	9	punct	_	_

フィールド定義

Tabによって区切られる固定数のフィールドによって構成されます。各フィールドの割り当ては下記の通りです。 フィールドが空である場合、"_"によって空であることを明示します。

文区切り定義

文末には空行が1つだけ置かれます。ファイルの最後にも空行が必要であり、これがないと最後の文がインポートされません。

フィールド一覧

プロパティ名
1ID文中の語番号(1から開始)
2FORMSurfaceに相当
3LEMMABaseに相当
4CPOSTAGPartOfSpeech1
5POSTAGPartOfSpeech2
6FEATS※1
7HEAD※2
8DEPREL※2
9PHEAD使用しません
10PDEPREL使用しません

※1 FEATSには、"|"によって区切られた任意の属性を入れます(順序不問)。ChaKi.NETにおいては、以下の特殊な属性を用います。

  • "SP" : その後の後に空白があることを示します。この情報はインポート時にデータ―ベース内に記録され、文脈表示時や語のマージ・分割時に利用されます。
  • "B-*", "I-*" (*は任意の英文字列を示す):  複合語であることを示すIOB-2タグです。インポート時にその部分が1語として扱われます。(内部の係り受けはなくなります。)

※2 インポート時には、1語に対して1つの文節Segmentが作成され、HEADへの係り受けは文節間の係り受けとしてインポートされます。

English|Cabocha形式

was	VBD	be

フィールド定義

Tabによって区切られる複数のフィールドによって構成されます。各フィールドには制御文字以外の任意の文字を使用できます。 フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。

フィールド一覧

プロパティ名
1Surface
2PartOfSpeech
3BaseLexeme