Import／Export仕様 - ChaKi Wiki - ChaKi

ChaKi.NETは、UTF-8でエンコードされた(*)テキストファイルをImport/Exportに使用します。

(*)Import時に限り、ShiftJIS, EUCも選択可能です。

このテキストファイルは、次の行を含みます。

行の特徴	内容	Import対象	Export対象
先頭が"#"で始まる行	Cabocha形式にChaKi.NETが独自に拡張を加えた部分。詳細は拡張Cabochaフォーマットへのエクスポートを参照して下さい。	なくてもよい	DOCID, DOCタグは常に付加される
先頭が"*"で始まる行	Cabochaが"-f1"オプション指定時に出力する文節・係り受けアノテーションを表す行。	なくてもよい	文節情報がなくても最低限文全体を含む文節を出力
EOS	文区切り	必須	常に出力
それ以外の行	1行が形態素解析により得られる1語に相当し、それぞれの語の情報を含む行。	必須	常に出力

注）

形態素を表す行の末尾に存在するNEを表す文字(Oなど）はChaKi.NETでは利用していません。
Export時、Cabochaの文節アノテーション中の主辞/機能語フィールドと係り関係のスコア（"0/1 1.95822019"のような部分）にはすべて"0"が出力されます(i.e. "0/0 0"となります）。
Export時、固有表現タグは常に"O"となります。（Segmentアノテーションの使用が推奨されるためこのカラムは用いません。）

形態素解析器の種類および解析に使用する辞書の種類により、語の情報は異なる形式で出力されます。 ChaKi.NETでは、以下の組み合わせをデフォルトで用意しています。（カスタマイズすることもできます。インポート形式をカスタマイズするを参照。）

名称に"|Cabocha"が含まれるのは、これらの形式すべてに対してCabochaアノテーションを付加してもしなくてもよいことを意味するものです。Cabochaのアノテーション形式自体は、以下で説明する形態素の表現形式とは無関係です。

形態素解析器	辞書	名称
ChaSen	IPADIC	ChaSen\|Cabocha
Mecab	IPADIC	Mecab\|Cabocha
Mecab	UniDic	Mecab\|Cabocha\|UniDic
ChaSen	UniDic	ChaSen\|Cabocha\|UniDic
n.a.	n.a.	English\|Cabocha

ファイル内に異なる形式を混在させることはできません。

ChaSen|Cabocha形式

例

と	ト	と	助詞-格助詞-一般			O

※改行はありません。

フィールド定義

Tabによって区切られる複数のフィールドによって構成されます。各フィールドには制御文字以外の任意の文字を使用できます。但し、PartOfSpeech, CType, CFormでは、"-"は階層のコネクタとして使用され予約文字となります。フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。

フィールド一覧

	プロパティ名	注
1	Surface
2	Reading	Pronunciationとして、常にReadingと同じ文字列がimportされます
3	BaseLexeme
4	PartOfSpeech
5	CType
6	CForm

Mecab|Cabocha形式

例

ゆく	動詞,自立,*,*,五段・カ行促音便ユク,基本形,ゆく,ユク,ユク	O

※改行はありません。

フィールド定義

第1カラムおよび最後のカラムのみTabによって区切られ、残りは","によって区切られた複数のフィールドによって構成されます。各フィールドには制御文字および"*"以外の任意の文字を使用できます。空白フィールドは、Importの場合は空白または"*"のどちらも利用可能です。Exportの場合は、常に"*"を出力します。フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。

フィールド一覧

	プロパティ名	注
1	Surface
2	PartOfSpeech	2-5カラムにはPartOfSpeechの4つの階層が分離されて格納されます。このカラムが最上位層です。
3	PartOfSpeech
4	PartOfSpeech
5	PartOfSpeech
6	CType
7	CForm
8	BaseLexeme
9	Reading
10	Pronunciation

Mecab|Cabocha|UniDic形式

例

です	助動詞,*,*,*,助動詞-デス,終止形-一般,デス,です,です,デス,デス,和,です,デス,デス,デス,*,*,*,*,*,*,*,"形容詞%F2@-1,動詞%F2@0,名詞%F2@1",*	O

※改行はありません。

フィールド定義

第1カラムおよび最後のカラムのみTabによって区切られ、残りは","によって区切られた複数のフィールドによって構成されます。各フィールドには制御文字および"*"以外の任意の文字を使用できます。空白フィールドは、Importの場合は空白または"*"のどちらも利用可能です。Exportの場合は、常に"*"を出力します。フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。

フィールド一覧

	プロパティ名	注
1	Surface
2	PartOfSpeech	2-5カラムにはPartOfSpeechの4つの階層が分離されて格納されます。このカラムが最上位層です。
3	PartOfSpeech
4	PartOfSpeech
5	PartOfSpeech
6	CType
7	CForm
8	LemmaForm
9	Lemma
10	(orth)	()で表示するカラムは、ChaKi.NETの検索キーとしては使用できません。カラムの意味についてはUniDicマニュアルを参照して下さい。
11	Pronunciation
12	Reading
13	(gosyu)
14	BaseLexeme
15	(pronBase)
16	(kanaBase)
17	(formBase)
18	(iType)
19	(iForm)
20	(iConType)
21	(fType)
22	(fForm)
23	(fConType)
24	(aType)
25	(aConType)
26	(aModType)

ChaSen|Cabocha|UniDic形式

例

です	デス	です	助動詞	助動詞-デス	終止形-一般	デス	です	デス	です	和	デス	デス	デス								"形容詞%F2@-1,動詞%F2@0,名詞%F2@1"		O

※改行はありません。

フィールド定義

Tabによって区切られる複数のフィールドによって構成されます。各フィールドには制御文字以外の任意の文字を使用できます。但し、PartOfSpeech, CType, CFormでは、"-"は階層のコネクタとして使用され予約文字となります。フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。

フィールド一覧

	プロパティ名	注
1	Surface
2	Reading
3	BaseLexeme
4	PartOfSpeech
5	CType
6	Form
7	LemmaForm
8	Lemma
9	Pronunciation
10	(orth)
11	(goshu)
12	(pronBase)
13	(kanaBase)
14	(formBase)
15	(iType)
16	(iForm)
17	(iConType)
18	(fType)
19	(fForm)
20	(fConType)
21	(aType)
22	(aConType)
23	(aModType)

CONLL形式

例

1	Pierre	_	NN	NNP	SP	2	nn	_	_
2	Vinken	_	NN	NNP	_	9	nsubj	_	_
3	,	_	PUNC	,	SP	2	punct	_	_
4	61	_	CD	CD	SP	5	num	_	_
5	years	_	NN	NNS	SP	6	dep	_	_
6	old	_	JJ	JJ	_	2	amod	_	_
7	,	_	PUNC	,	SP	2	punct	_	_
8	will	_	MD	MD	SP	9	aux	_	_
9	join	_	VB	VB	SP	0	root	_	_
10	the	_	DT	DT	SP	11	det	_	_
11	board	_	NN	NN	SP	9	dobj	_	_
12	as	_	P	IN	SP	9	prep	_	_
13	a	_	DT	DT	SP	15	det	_	_
14	nonexecutive	_	JJ	JJ	SP	15	amod	_	_
15	director	_	NN	NN	SP	12	pobj	_	_
16	Nov.	_	NN	NNP	SP	9	tmod	_	_
17	29	_	CD	CD	_	16	num	_	_
18	.	_	PUNC	.	_	9	punct	_	_

フィールド定義

Tabによって区切られる固定数のフィールドによって構成されます。各フィールドの割り当ては下記の通りです。フィールドが空である場合、"_"によって空であることを明示します。

文区切り定義

文末には空行が1つだけ置かれます。ファイルの最後にも空行が必要であり、これがないと最後の文がインポートされません。

フィールド一覧

	プロパティ名	注
1	ID	文中の語番号(1から開始)
2	FORM	Surfaceに相当
3	LEMMA	Baseに相当
4	CPOSTAG	PartOfSpeech1
5	POSTAG	PartOfSpeech2
6	FEATS	※1
7	HEAD	※2
8	DEPREL	※2
9	PHEAD	使用しません
10	PDEPREL	使用しません

※1 FEATSには、"|"によって区切られた任意の属性を入れます（順序不問）。ChaKi.NETにおいては、以下の特殊な属性を用います。

"SP" : その後の後に空白があることを示します。この情報はインポート時にデータ―ベース内に記録され、文脈表示時や語のマージ・分割時に利用されます。

"B-*", "I-*" （*は任意の英文字列を示す）: 　複合語であることを示すIOB-2タグです。インポート時にその部分が1語として扱われます。（内部の係り受けはなくなります。）

※2 インポート時には、1語に対して1つの文節Segmentが作成され、HEADへの係り受けは文節間の係り受けとしてインポートされます。

English|Cabocha形式

例

was	VBD	be

フィールド定義

Tabによって区切られる複数のフィールドによって構成されます。各フィールドには制御文字以外の任意の文字を使用できます。フィールドに","が含まれる場合、その文字列は、二重引用符(")で囲まれます。

フィールド一覧

	プロパティ名	注
1	Surface
2	PartOfSpeech
3	BaseLexeme

ChaKi.NET (3.16 Revision 653)	2021-01-23 23:11
ChaMame (1.0.4)	2020-01-14 17:04
Patch Files (TextFormatter for ChaKi.NET (2010/11/20))	2010-11-21 23:23
その他 (CaboCha-0.66/UniDic用モデルファイル)	2013-02-18 17:00
旧版[ChaKi Legacy] (2.1.0 Build 202)	2008-11-16 23:47

ChaKi

Letzte Änderungen

2021-01-24

2021-01-19

2021-01-17

2020-01-17

Neueste Datei-Release

Wiki Guide

Seitenleiste

ChaSen|Cabocha形式

例

フィールド定義

フィールド一覧

Mecab|Cabocha形式

例

フィールド定義

フィールド一覧

Mecab|Cabocha|UniDic形式

例

フィールド定義

フィールド一覧

ChaSen|Cabocha|UniDic形式

例

フィールド定義

フィールド一覧

CONLL形式

例

フィールド定義

文区切り定義

フィールド一覧

English|Cabocha形式

例

フィールド定義

フィールド一覧