YAMANEKO/Mao
yneko****@yamam*****
2010年 3月 3日 (水) 14:26:24 JST
お世話になります、もりもとと申します。 mecab0.98 + mecab-naist-jdic-0.4.3-20080917 で使用しているのですが、 連続したアルファベット2文字の扱いが不可解で躓いております。 「ay」の場合: a 記号,アルファベット,*,*,*,*,a,エイ,エイ y 記号,アルファベット,*,*,*,*,y,ワイ,ワイ 「これはayです」の場合: これ 名詞,代名詞,一般,*,*,*,これ,コレ,コレ は 助詞,係助詞,*,*,*,*,は,ハ,ワ ay 名詞,一般,*,*,*,*,* です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス 「これはay装置です」の場合: これ 名詞,代名詞,一般,*,*,*,これ,コレ,コレ は 助詞,係助詞,*,*,*,*,は,ハ,ワ a 記号,アルファベット,*,*,*,*,a,エイ,エイ y 記号,アルファベット,*,*,*,*,y,ワイ,ワイ 装置 名詞,サ変接続,*,*,*,*,装置,ソウチ,ソーチ です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス どうも、連続した2文字のアルファベットは、前後の文章によって 記号二つに分解される場合と、名詞一般になる場合があるようです。 (アルファベット3文字以上だとこのようなことは起きません) 恐らく、unk.defあたりの記述が関係しているのでは?と思うのですが・・・ これを一貫して、名詞一般として認識するようにするには、 どのように設定すると良いのでしょうか? ちなみに、ipadicでは全く問題ないのですが、 既にnaist-jdicをベースに、いろいろ単語を追加・編集してしまっているので、 切り替えは困難な状況です。。 よろしくお願いいたします。。 - YAMANEKO / Mao http://wiki.livedoor.jp/yamamaya_com/ http://yamamaya.com/