[Anthy-dev 2513] 内海の cannadic 差分を 大泉さんの alt-cannadic にマージ

Zurück zum Archiv-Index

UTUMI Hirosi utuhi****@yahoo*****
2005年 10月 10日 (月) 16:58:30 JST


内海です。

私が作った cannadic 差分を、大泉さんの alt-cannadic に
マージしました。実験的なものなので変換精度の向上には
期待しないでください。

ファイルはこちらです。
http://www.geocities.jp/ep3797/snapshot/tmp/cannadic_oizumi-20051009.tar.bz2

このファイルは暫定的なものです。正式なものについては
大泉さんが作業しておられるところです。

作業の詳細につきましては上記ファイルの中の
doc_ut に入っている history*.txt をご覧ください。
大泉さんと私とのやりとり、作業に当たって心がけたこと、
Anthy と cannadic に対する考えなどを書いています。 
ご一読いただけましたら幸いです。


Tabata-san wrote:
> しかし、正直なところ私には現行のcannadicとのトレードオフを
> 評価して、どうやって使えば良いか判断する能力がないのが現状です。

現行の cannadic より少し良いものを確実に使いたいときは、
私が手を入れた anthy_gcanna_ut がいいと思います。
新しいものにチャレンジしたりこれから cannadic を編集しようという人には
大泉さんの alt-cannadic が良いと思います。

大泉さんの alt-cannadic はよく整理されていて単語もたくさん追加されています。
しかし単語の頻度が品詞ごとにスクリプトで整理されているので、
必ずしも妥当な頻度にはなっていません。
このため読みの一部がかぶる単語においては
単語選択が適切に行われないことがあります。
(作例 [あくまで例です。これらの単語で問題が起きるという訳ではありません])
かれ #T35*50 彼
かれの #T35*50 枯れ野

cannadic-oizumi では私のほうでおおざっぱに頻度を調整しましたが、
完全なものではありません。

今後 cannadic-oizumi の頻度を詰めていくことは、現時点では
考えていません。

anthy と cannadic についての考えは doc_ut の大泉さんとのやりとりの
なかで書きましたが、私も大泉さんがおっしゃるように
> 「Anthy が統計的アプローチも備えた
> ハイブリッド・エンジンになって、辞書側の優先値そのものが
> お払い箱になるかもしれない(なって欲しい)」
と思っています。


--------------------------------------
Know more about Breast Cancer
http://pr.mail.yahoo.co.jp/pinkribbon/




Anthy-dev メーリングリストの案内
Zurück zum Archiv-Index