[Anthy-dev 3703] Anthy の文節区切りの問題の報告およびその修正パッチ

Zurück zum Archiv-Index

g-hal****@fenix***** g-hal****@fenix*****
2009年 12月 5日 (土) 01:41:04 JST


 fenix.ne.jp の G-HAL です。
 Anthyの文節区切りの際に、
文節を分解した複合語を使った文節区切り候補と、
文節を連結して1単語化した複合語を使った文節区切り候補と、
複合語を使わない文節区切り候補の、
3種類の候補の評価が循環してしまい、
結果、評価の低い文節区切りを採用してしまう問題(バグ?)を
見つけました。
 修正パッチを作ってみましたので送付致します。

 添付のパッチでは
「文節を連結して1単語化した複合語を使った文節区切り候補」の評価を
強制的に最下位にする事で、評価の循環を切っています。


発症例:
 「きゃっかんてき」を変換した場合。

単語辞書から生成した名詞「|きゃっかんてき|」(「|客観的|」など)の評価
    <     複合語辞書から1単語化して生成した名詞
           「|きゃっかん_てき|」(「|客観_的|」など)の評価
# src-splitter/lattice.c の cmp_node() の /* 最後に遷移確率を見る */ の部分。

上記「|きゃっかん_てき|」の評価
    <    単語辞書から生成した副詞「|きゃっ|」(「|キャッ|」など)と
          複合語辞書から生成して文節を分割した名詞
          「|かん|てき|」(「|観|的|」など)を
          連結して生成した候補「|きゃっ|かん|てき|」の評価
# src-splitter/lattice.c の cmp_node() の cmp_node_by_type_to_type() 呼出の部分。

上記「|きゃっ|かん|てき|」の評価 < 上記「|きゃっかんてき|」の評価
# src-splitter/lattice.c の cmp_node() の /* 最後に遷移確率を見る */ の部分。

と、評価がループしており、
最後に生成された候補「|きゃっ|かん|てき|」が採用されてしまいます。

================================================================
                         (Now Printing)                         
================================================================
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: anthy-9100h.debugpatch.bz2
型:         application/octet-stream
サイズ:     689 バイト
説明:       anthy-9100h.debugpatch.bz2
Download 



Anthy-dev メーリングリストの案内
Zurück zum Archiv-Index