yusuk****@cheru*****
yusuk****@cheru*****
2003年 9月 25日 (木) 00:21:33 JST
田畑です。 たまにはanthyのリリース報告もしておきます。 先日行なった文節の構造の扱いの変更によって出てきた 誤変換の修正がメインです。 アルゴリズムの説明とかもしたいのですが、今回は抽象的な 説明をします。 anthyで文節に区切ったり、候補を割当てたりする際には 数多くのパラメータを使います。例えば自立語の長さや付属語の 長さ、隣合う文節との長さとのバランスなどなどです。 変換エンジンを賢くするには、これらの係数などのパラメータを 調整する方向と新たな評価のメカニズムを導入する方向があり、 今迄もこれを交互にやってきました。 このような開発プロセスを取ると、新しいメカニズムを導入した 直後は性能が落ちて、どうしようもない誤変換をしまくるものですが、 うまいメカニズムを導入できた場合、以前よりも楽なチューニングで 性能が回復します。なので、個々のしょうもない誤変換を眺めながら 良いメカニズムを探すのという開発スタイルを取っています。 #必死でパラメータをチューニングしてしまうと、メカニズムで性能を #稼げなくなってしまいます。このようなパラメータのことを #「必殺パラメータ」と呼んでいます。 #一般的な用語では「過学習」と言います。 -- CHAOS AND CHANCE! Yusuke TABATA (yusuk****@cheru*****)