Takashi Nakamoto
blued****@openo*****
2006年 11月 24日 (金) 00:20:06 JST
中本です。 Yusuke TABATA <yusuk****@w5*****> wrote: > Takashi Nakamoto wrote: > > 添付し忘れ。 > > # 66%の確率で私は添付し忘れる orz > #MEMMを導入すれば、「私」「祝日」「添付」で66%という > #情報を与えることで他の組み合わせのときの確率をもっとも > #らしく推定してくれることでしょう。 MEMMってすごいです。まだ良く理解していないけど orz > >>問題2. anthy-dic-tool --dump と anthy-dic-tool --dump --utf8では出力の > >> 結果が異なる > > >>解決策としては、 > >> 3. このまま仕様ということにする > しばらくは使う人も少ないと思われるので、これでいこうと思います。 > 次かその次のリリースの後にrecord形式の個人辞書を切ってから > 単語をコピーするようにしたり、最初からUTF8で登録するようにしたり > といった移行をするつもりです。 了解です。 Anthy内部で使っている文字列について確認したいのですが、使っている文字 列のタイプは * xstr -> UCS4文字列 * cstr -> EUC-JP文字列またはUTF-8文字列 の2種類であり、基本的にAnthyの変換に関わるところでは xstr を使っている が、ファイルなどに出力するときには指定されたエンコーディングに従った cstr を使っているということでよいでしょうか。 また、cstrに関してどこでどの文字エンコーディングが使われているのか追っ てみてはいるのですが、なんか混乱しちゃってます。なんか文字エンコーディ ングの扱いに関して方針(決まり?)みたいのがあれば教えていただけると助か ります。 > >>p.s. > >>最近(というか昨日の深夜)、 > >>http://bd.tank.jp/anthy_reading/index.html > >>こんなん書きました。 > わかりやすいですね。anthyは読むとわかると思いますが、辞書や文字列や > 品詞を扱う足回りと文の構造を推定するコードの二本立てになってます。 > 最近は後者ばっかりいじってるので、辞書まわりの問題を思い出す > 良い機会になりました。 辞書周りを思い出すきっかけになって良かったです。 次はそのコードが二本立てになっているあたりをうまく図にしたいと考えてい ます。辞書周りはなんとなく全体像が分かってきたので、次は文の構造を推定 するコードを、吉田さんの http://mono.kmc.gr.jp/~oxy/w/hiki.cgi?AHG_Splitter を参考にしながらMEMMについて調べてみます。 -- 中本 崇志 (Takashi Nakamoto) E-mail: blued****@bpost***** Blog: http://bd.tank.jp/diary/