Foren: POPFile 全般 (Thread #15494)

分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-12 15:53 by amatubu #30628)

POPFile 0.22.5 がリリースされましたので、分かち書きに MeCab や
文字種による分割を使用するためのパッチを更新しました。
https://sourceforge.jp/tracker/index.php?func=detail&aid=10694&group_id=759&atid=2945

パッチの使用方法などについてはこちらを参照してください。
http://popfile.sourceforge.net/wiki/jp:faq:mecab

前回のパッチからの修正点は、「文字種による分割」の設定を
「simple」から「internal」に変更したことだけです。

文字種による分割という非常に単純な分かち書きでも、POPFile の
分類精度はほとんど変わらないという実験結果が得られましたので、
このパッチはぜひとも次のバージョンに含めたいと考えています。

動作テストにご協力よろしくお願いします。

参考(分かち書きのプログラムによる精度比較):
http://amatubu.skr.jp/?POPFile/Accuracy

RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-12 16:22 by yahonda #30629)

さっそくPOPFile 0.22.5(Windows版)でパッチを当て、
internal に変更してみました。

今のところ快適に動いています。
多くのメッセージを分類して分類精度などに顕著な変化などありましたらまたこのスレッドにアップします。


Reply to #30628

RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-12 16:42 by amatubu #30630)

早速ありがとうございます。

書き忘れていましたが、分類精度が変わらなかったというのは
「最初からその分かち書きプログラムを使用した場合」で、
途中から変更した場合は一時的に精度が下がるかもしれません。
(分かち書きの仕方が変わるため)

とはいえ、私が以前に試したときにはそれほどの違いは
感じませんでしたので、おそらく体感できるほどの違いは
ないものと思います。

何かありましたら教えてください。

そういえば、Windows 版では、POP3 同時接続を有効に
していた場合に Kakasi では必要だった排他処理が不要に
なるのでそういう面でもパフォーマンスが向上するかも
知れません。
Reply to #30629

RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-17 12:26 by yahonda #30717)

こんにちは。

>
> 何かありましたら教えてください。
>

パッチ適用後、5日ほど使用しています。
(一日平均100通程度のメールを受信し、Windowsの再起動も一日一回程度)
今日ひさびさに、見逃しが一通ありましたが、
英文メールなのでこれがパッチに関係するものなのかどうかはわかりません。

> そういえば、Windows 版では、POP3 同時接続を有効に
> していた場合に Kakasi では必要だった排他処理が不要に
> なるのでそういう面でもパフォーマンスが向上するかも
> 知れません。

私は POP3 の同時接続は常に無効(ひとりでつかっているので)
なのでこちらは判断がつきませんが、パフォーマンスについては
私には体感できる差異はありませんでした。
(Windows XP2/ThinkPad X31 1.5GB Memory/160GB HDD/5400rpm/社内LAN)

Reply to #30630

RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-17 12:58 by amatubu #30718)

> 今日ひさびさに、見逃しが一通ありましたが、
> 英文メールなのでこれがパッチに関係するものなのかどうかはわかりません。

ありがとうございます。
私も分かち書きに MeCab を使うように設定してしばらく
使ってみていますが、今のところこれといって違いはない
ように思われます。

パッチ適用の影響かどうかについては、見逃したメールを
学習させる前であれば(もしくは学習を取り消した後で)、

・bayes_japanese_parser を kakasi に変更して POPFile を
 再起動する
・履歴で該当メッセージを開き、「現在のコーパスによる分類」に
 違いがあるかどうかを確かめる

で調べられると思います。
英文のメールということですので、パッチの影響ではない
でしょうけれど。

> パフォーマンスについては
> 私には体感できる差異はありませんでした。

こちらについても私のところでも体感できるほどの違いは
ないようです。
0.22.2→0.22.3 や、0.22.4→0.22.5 の変化に比べれば
小さな効果しかないと思われます(おそらく 0.22.5 に
比べて数%程度向上するくらいでしょう)ので、そういう
ものかもしれません。
Reply to #30717

RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-17 13:08 by yahonda #30719)

こんにちは。

さっそく分かち書き変更のせいなのかどうか、
確かめるべく調べてみました。

が、

> ・履歴で該当メッセージを開き、「現在のコーパスによる分類」に
> 違いがあるかどうかを確かめる

このところで躓いています。
こちらの「現在のコーパスによる分類」というのが
履歴からも履歴からメッセージをクリックしてシングルメッセージビューにいってもみつかりません...。

アドバイスいただけないでしょうか。
どうぞよろしくお願いいたします。
Reply to #30718

RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-17 18:40 by amatubu #30730)

> こちらの「現在のコーパスによる分類」というのが
> 履歴からも履歴からメッセージをクリックしてシングルメッセージビューにいってもみつかりません...。

説明不足ですみません。
「現在のコーパスによる分割」が表示されない場合は、既に分類されている
バケツと同じバケツに分類されるということです。
すなわち、分かち書きのプログラムが変わったことによる影響ではない
ということになりますね。

・履歴で該当メッセージを開き、「現在のコーパスによる分類」が
 表示されるかどうかを確かめる(表示されれば分類結果が異なる)

と訂正します。
Reply to #30719

RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-17 22:08 by yahonda #30734)

どうもありがとうございます。

見逃しの理由は分かち書きの方法(kakasi or internal)によるものではありませんでした。

もうしばらく使い続けてみます。
Reply to #30730

RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-18 02:29 by amatubu #30736)

速度テストで使った 500 通のメールについて、Kakasi と内蔵パーサで
異なる分類結果になったものを抽出してみましたところ、3 通見つかりました。
(バケツは inbox と spam のみ。これまで Kakasi のみを使用)

分類結果が分かれたのはいずれもメールマガジン的なメールで、
・2 通は unclassified となった
 (うち 1 通は Kakasi が spam に誤分類)
・1 通は spam と誤認識された
でした。

この 500 通だけ見れば、分類精度は Kakasi 99.8%、内蔵パーサ
99.4% で、0.4% の差ですね。
Reply to #30734

RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-18 02:09 by amatubu #30735)

> 0.22.2→0.22.3 や、0.22.4→0.22.5 の変化に比べれば
> 小さな効果しかないと思われます(おそらく 0.22.5 に
> 比べて数%程度向上するくらいでしょう)ので、そういう
> ものかもしれません。

0.22.2、0.22.4、0.22.5、0.22.5+パッチについてどの程度速度が
違うかを少し調べてみました。
http://d.hatena.ne.jp/amatubu/20070717#p1

サンプルに使うメールによっては異なる結果になると思いますが、
若干の効果はあるようです。
Reply to #30718

RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-14 19:58 by amatubu #30668)

Windows 版のインストーラをパッチセクションに登録しました。
http://sourceforge.jp/tracker/index.php?func=detail&aid=10694&group_id=759&atid=2945

また、MeCab 0.96 を含めたインストーラも作成しましたが、
大きすぎてパッチセクションには載せられませんでしたので
http://idisk.mac.com/amatubu/Public/POPFile/popfile_jpn_patch_w_mecab.zip
に置きました。

Mac 版はこれから準備します。
Reply to #30628