anthy-4524 released (Anthy-dev 224) - Anthy

田畑です。

たまにはanthyのリリース報告もしておきます。

先日行なった文節の構造の扱いの変更によって出てきた
誤変換の修正がメインです。
アルゴリズムの説明とかもしたいのですが、今回は抽象的な
説明をします。

anthyで文節に区切ったり、候補を割当てたりする際には
数多くのパラメータを使います。例えば自立語の長さや付属語の
長さ、隣合う文節との長さとのバランスなどなどです。
変換エンジンを賢くするには、これらの係数などのパラメータを
調整する方向と新たな評価のメカニズムを導入する方向があり、
今迄もこれを交互にやってきました。

このような開発プロセスを取ると、新しいメカニズムを導入した
直後は性能が落ちて、どうしようもない誤変換をしまくるものですが、
うまいメカニズムを導入できた場合、以前よりも楽なチューニングで
性能が回復します。なので、個々のしょうもない誤変換を眺めながら
良いメカニズムを探すのという開発スタイルを取っています。

#必死でパラメータをチューニングしてしまうと、メカニズムで性能を
#稼げなくなってしまいます。このようなパラメータのことを
#「必殺パラメータ」と呼んでいます。
#一般的な用語では「過学習」と言います。

--
 CHAOS AND CHANCE!
  Yusuke TABATA (yusuk****@cheru*****)

Anthy

[Anthy-dev 224] anthy-4524 released