Re: anthy-dic-toolと文字エンコーディング (Anthy-dev 3242) - Anthy

中本です。

Yusuke TABATA <yusuk****@w5*****> wrote:
> Takashi Nakamoto wrote:
> > 添付し忘れ。
> > # 66%の確率で私は添付し忘れる orz
> #MEMMを導入すれば、「私」「祝日」「添付」で66%という
> #情報を与えることで他の組み合わせのときの確率をもっとも
> #らしく推定してくれることでしょう。

MEMMってすごいです。まだ良く理解していないけど orz

> >>問題2. anthy-dic-tool --dump と anthy-dic-tool --dump --utf8では出力の
> >>       結果が異なる
> 
> >>解決策としては、
> >> 3. このまま仕様ということにする
> しばらくは使う人も少ないと思われるので、これでいこうと思います。
> 次かその次のリリースの後にrecord形式の個人辞書を切ってから
> 単語をコピーするようにしたり、最初からUTF8で登録するようにしたり
> といった移行をするつもりです。

了解です。

Anthy内部で使っている文字列について確認したいのですが、使っている文字
列のタイプは
 * xstr -> UCS4文字列
 * cstr -> EUC-JP文字列またはUTF-8文字列
の2種類であり、基本的にAnthyの変換に関わるところでは xstr を使っている
が、ファイルなどに出力するときには指定されたエンコーディングに従った
cstr を使っているということでよいでしょうか。

また、cstrに関してどこでどの文字エンコーディングが使われているのか追っ
てみてはいるのですが、なんか混乱しちゃってます。なんか文字エンコーディ
ングの扱いに関して方針(決まり？)みたいのがあれば教えていただけると助か
ります。

> >>p.s.
> >>最近(というか昨日の深夜)、
> >>http://bd.tank.jp/anthy_reading/index.html
> >>こんなん書きました。
> わかりやすいですね。anthyは読むとわかると思いますが、辞書や文字列や
> 品詞を扱う足回りと文の構造を推定するコードの二本立てになってます。
> 最近は後者ばっかりいじってるので、辞書まわりの問題を思い出す
> 良い機会になりました。

辞書周りを思い出すきっかけになって良かったです。
次はそのコードが二本立てになっているあたりをうまく図にしたいと考えてい
ます。辞書周りはなんとなく全体像が分かってきたので、次は文の構造を推定
するコードを、吉田さんの
http://mono.kmc.gr.jp/~oxy/w/hiki.cgi?AHG_Splitter
を参考にしながらMEMMについて調べてみます。

-- 
 中本 崇志 (Takashi Nakamoto)
 E-mail: blued****@bpost*****
 Blog: http://bd.tank.jp/diary/

Anthy

[Anthy-dev 3242] Re: anthy-dic-toolと文字エンコーディング