ChaKi.NET (3.16 Revision 653) | 2021-01-23 23:11 |
ChaMame (1.0.4) | 2020-01-14 17:04 |
Patch Files (TextFormatter for ChaKi.NET (2010/11/20)) | 2010-11-21 23:23 |
その他 (CaboCha-0.66/UniDic用モデルファイル) | 2013-02-18 17:00 |
旧版[ChaKi Legacy] (2.1.0 Build 202) | 2008-11-16 23:47 |
Cabocha形式に長単位情報を付加した形式で、https://github.com/masayu-a/UD_Japanese-GSDPUD-CaboCha にて定義されています。
具体的には、従来の"Mecab|Cabocha|UniDic2"形式に下記の拡張を施したものになります。
ChaKi.NETでは、CreateCorpusツールでインポートするときに"Mecab|Cabocha|UniDic2|LUW"形式を選択するとこの形式が 認識され、短単位でアノテーションされたドキュメントがProject 0に、長単位でアノテーションされたドキュメントがProject 1に それぞれ自動インポートされます。
内部処理は2フェーズとなり、
結果として、一つのドキュメントの2つのバージョン(短単位・長単位)が異なるProjectとしてDB内に出来上がります。
エクスポートする場合は、Project0, 1をそれぞれ選択して別のファイルにエクスポートしてください。