[Anthy-dev 838] 付属語の整理

Zurück zum Archiv-Index

YamaKen yamak****@bp*****
2004年 5月 28日 (金) 07:23:09 JST


ヤマケンです。

個人的にAnthyを使っていて一番の弱点と感じるのが口語の変換ですが、
これは付属語辞書を編集するだけでかなり改善できるので、その継続的
強化に向けた体制を作れないかと考えています。

Anthy wikiのTODOにも「付属語の整理」とありますが、作業方針の心づ
もりやマンパワーが許せばやりたい事などあったら聞かせてもらえない
でしょうか。

付属語辞書で使われているパターン言語は単純なので、十分な解説があ
れば非プログラマにも扱えると思います。日本語の専門家に補完しても
らえるような体制を作れればベストですね。


手はじめに以下の変換できないパターンに自分なりに対処してみました。

買っといたら     → |カット|いたら|, |喝といたら|
買っとか(ないと)
買っとき
買っとけ(ば)
買っとこ(う)

fix.depwordに以下のようなエントリを追加したらとりあえずは変換で
きるようになりました。

@て "といたら" @
@て "とかない" @ @と
@て "とき" @
@て "とけ" @ @ば @よ
@て "とこ" @ @う

が、Anthyの開発予定や日本語文法に対する十分な知識がないまま進め
る事はできないと思っています。例えばfix.depwordには以下のような
エントリがありますが、

@て "てるんだけど" @

この調子でどんどん複合語が登録されていくと組み合わせ爆発が発生し
てしまうので、理想としては以下のように語調の変化も含めて合成可能
な形で別々のエントリに分解されているべきと考えています。これは技
術的には付属語辞書の編集のみで可能と認識しています(簡単とは思っ
ていません)。

て + いる + のだ + けれど = てるんだけど
て + いた + のだ + けれど = てたんだけど

#"てるんだけど"のエントリは削除しても変換できるようですがあくま
#で例として

付属語の仕様についてドキュメントが追いついてない部分があるような
ので追記してみました。できれば更新お願いします。

-------------------------------
ヤマケン yamak****@bp*****
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: anthy-5326-doc.diff
型:         application/octet-stream
サイズ:     1339 バイト
説明:       無し
Download 


Anthy-dev メーリングリストの案内
Zurück zum Archiv-Index