yusuk****@cheru*****
yusuk****@cheru*****
2005年 6月 10日 (金) 23:11:17 JST
田畑です。 > 候補の順番を修正する adjust.t というファイルがあるそうなので、 > "あるWebページで使われていたらその語の優先順位は高いだろう" > という考えに基づき、いくつかのWebページを見て、 > adjust.tを自動生成するスクリプトを作りました。 動かしてみました。ちゃんとadjust.tの形式で出力されますね。 1回出現しただけで頻度を上げていては、すごいことになってしまうので、 複数回出現して、かつAnthyが誤変換した場合にのみadjust commandを 生成するというのが妥当かなと思います。 #anthyのパッケージ中にはruby用のanthy.soを生成するスクリプトを #入れてますので、それが使えるかもしれません。 さらに、Wikipediaのデータを使うというアイデアには目から 鱗が落ちる思いをしました。素晴らしいです。僕も使いたいと思います。 また、今後、フリーな変換エンジンを作ろうとする人にとっても 良いヒントになると思います。 Web上のデータを使って色々とやろうというアイデアは前から議論していたの ですが、この場合、処理の結果だけではなく、元のテキストや処理用の コードも再配布可能にしておかないと続きの開発をやろうとする人が前の 結果を再現できないという問題で困っていました。(当然、他に技術的に 難しい点もありますが) この点、ライセンスがGFDLになっているWikipediaは嬉しいです。 こういう応用の可能性があるとわかったので、anthyにchasenと同じ 漢字かな混じり文のわかち書き機能を数ヵ月中に追加したいと思います。 わかち書きの性能ではchasenの方が上のはずですが、anthyの語彙で わかち書きした方がanthyへのフィードバックをかけやすい結果が 得られるのではないかと思ってます。 面白いものをありがとうございました。今後、何か作られてuploadする 場所が必要な場合、sourceforge.jpのアカウント名を教えていただければ anthyのプロジェクトにuploadできるようにすることは可能です。 ついでですが、anthyは今月末に安定版のanthy-6700をリリースする予定で、 大きな変更はそれ以降にやる予定です。 > > スクリプトを添付します。 > - main.sh 実行スクリプト > - makeadjust.rb が本体 > > となっています。現在はwikipediaのページをいくつかとってきています。 > (main.shにリストされてます) > 実行には ruby-1.8, chasen, ruby-chasenが必要です。 > 実行すると、adjust.t.makeadjust というのができます。 > (現状約6000行できます。添付しようとしたら大きすぎました…) > > > chasenを信じて品詞の分類をしていますが、 > 文法の知識が無いのでこれで合っているかどうかはよく分かりません。 > もう少しやりようがあるとは思っていますが。 > > というわけで、このスクリプトが有効かどうかは甚だ疑問ですが、 > なにかの御役に立てれば幸いです。 > > それでは。