[mecab-devel 110] Re: ウインドウズ用バイナリーパッケージでインストールした際の文字セットについて

Zurück zum Archiv-Index
Sae miyab****@yd6*****
2021年 5月 10日 (月) 21:16:24 JST


こんばんは 顛末を報告します。


 呼び出し側で観た引数と、呼ばれた側で観た引数が違っていた件については

 オプティマイズオプション -02 によって、デバッガ側のスタックフレームの

参照が違っていたようです。オプティマイズなしでlibmecabをビルドすると

 int decode_charset(const char *charset) {
   std::string tmp = charset;

 引数には間違いなく utf-8 が渡ってきていました。

 sys.dicのキャラセットはutf-8でした。

 再度、sys.dicとユーザー辞書をutf-8でビルドしなおし、mecab_model_newで

エラーにならなくなり、ユーザー辞書登録の語彙も処理されてそうです。

 "二人" ふたり をユーザー辞書に登録しているのですが、ににんになってしまう

のとかコストの問題?ありそうですが。

 コマンドプロンプトで mecab -D で sys.dic が shift-jis 
と表示された件について

は残っていますが。もしかしたら、dicrcファイルの config-charset 
の設定が表示さ

れているのかもと憶測しています。

 まさえ



Mecab-devel メーリングリストの案内
Zurück zum Archiv-Index