You are not logged in. This forum allows only logged in users to post. If you want to post in the forum, please log in.
Download
Entwicklung
Konto
Download
Entwicklung
Anmelden
Vergessen Konto/Passwort
Konto erstellen
Sprache
Hilfe
Sprache
Hilfe
×
Anmelden
Anmeldename
Passwort
×
Vergessen Konto/Passwort
Übersetzungsstatus von Deutsch
Kategorie:
Software
Personen
PersonalForge
Magazine
Wiki
Suche
OSDN
>
Finden Software
>
Communications
>
Email
>
Filter
>
POPFile(自動メールフィルター)の日本語化
>
Foren
>
POPFile 全般
>
分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ
POPFile(自動メールフィルター)の日本語化
Beschreibung
Projekt Zusammenfassung
Entwickler-Dashboard
Web-Seite
Entwickler
Bildergalerie
RSS Feed-Liste
Aktivität
Statistiken
Historie
Downloads
Aller Releases-Liste
Statistiken
Ticket
Ticket-Liste
Liste der Meilensteine
Typenliste
Komponentenliste
Liste der zuletzt benutzten Tickets/RSS
Neue Ticket abschicken
Dokumente
Kommunikation
Foren
Forum-Liste
オフトピック (69)
POPFile 全般 (982)
POPFile 初学者専用 (1265)
Mailinglisten
Alle Mailinglisten
Neuigkeiten
Foren:
POPFile 全般
(Thread #15494)
Zurück zur Thread-Liste
RSS
分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-12 15:53 by
amatubu
#30628)
Ticket erstellen
POPFile 0.22.5 がリリースされましたので、分かち書きに MeCab や
文字種による分割を使用するためのパッチを更新しました。
https://sourceforge.jp/tracker/index.php?func=detail&aid=10694&group_id=759&atid=2945
パッチの使用方法などについてはこちらを参照してください。
http://popfile.sourceforge.net/wiki/jp:faq:mecab
前回のパッチからの修正点は、「文字種による分割」の設定を
「simple」から「internal」に変更したことだけです。
文字種による分割という非常に単純な分かち書きでも、POPFile の
分類精度はほとんど変わらないという実験結果が得られましたので、
このパッチはぜひとも次のバージョンに含めたいと考えています。
動作テストにご協力よろしくお願いします。
参考(分かち書きのプログラムによる精度比較):
http://amatubu.skr.jp/?POPFile/Accuracy
RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-12 16:22 by
yahonda
#30629)
Ticket erstellen
さっそくPOPFile 0.22.5(Windows版)でパッチを当て、
internal に変更してみました。
今のところ快適に動いています。
多くのメッセージを分類して分類精度などに顕著な変化などありましたらまたこのスレッドにアップします。
Reply to
#30628
RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-12 16:42 by
amatubu
#30630)
Ticket erstellen
早速ありがとうございます。
書き忘れていましたが、分類精度が変わらなかったというのは
「最初からその分かち書きプログラムを使用した場合」で、
途中から変更した場合は一時的に精度が下がるかもしれません。
(分かち書きの仕方が変わるため)
とはいえ、私が以前に試したときにはそれほどの違いは
感じませんでしたので、おそらく体感できるほどの違いは
ないものと思います。
何かありましたら教えてください。
そういえば、Windows 版では、POP3 同時接続を有効に
していた場合に Kakasi では必要だった排他処理が不要に
なるのでそういう面でもパフォーマンスが向上するかも
知れません。
Reply to
#30629
RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-17 12:26 by
yahonda
#30717)
Ticket erstellen
こんにちは。
>
> 何かありましたら教えてください。
>
パッチ適用後、5日ほど使用しています。
(一日平均100通程度のメールを受信し、Windowsの再起動も一日一回程度)
今日ひさびさに、見逃しが一通ありましたが、
英文メールなのでこれがパッチに関係するものなのかどうかはわかりません。
> そういえば、Windows 版では、POP3 同時接続を有効に
> していた場合に Kakasi では必要だった排他処理が不要に
> なるのでそういう面でもパフォーマンスが向上するかも
> 知れません。
私は POP3 の同時接続は常に無効(ひとりでつかっているので)
なのでこちらは判断がつきませんが、パフォーマンスについては
私には体感できる差異はありませんでした。
(Windows XP2/ThinkPad X31 1.5GB Memory/160GB HDD/5400rpm/社内LAN)
Reply to
#30630
RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-17 12:58 by
amatubu
#30718)
Ticket erstellen
> 今日ひさびさに、見逃しが一通ありましたが、
> 英文メールなのでこれがパッチに関係するものなのかどうかはわかりません。
ありがとうございます。
私も分かち書きに MeCab を使うように設定してしばらく
使ってみていますが、今のところこれといって違いはない
ように思われます。
パッチ適用の影響かどうかについては、見逃したメールを
学習させる前であれば(もしくは学習を取り消した後で)、
・bayes_japanese_parser を kakasi に変更して POPFile を
再起動する
・履歴で該当メッセージを開き、「現在のコーパスによる分類」に
違いがあるかどうかを確かめる
で調べられると思います。
英文のメールということですので、パッチの影響ではない
でしょうけれど。
> パフォーマンスについては
> 私には体感できる差異はありませんでした。
こちらについても私のところでも体感できるほどの違いは
ないようです。
0.22.2→0.22.3 や、0.22.4→0.22.5 の変化に比べれば
小さな効果しかないと思われます(おそらく 0.22.5 に
比べて数%程度向上するくらいでしょう)ので、そういう
ものかもしれません。
Reply to
#30717
RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-17 13:08 by
yahonda
#30719)
Ticket erstellen
こんにちは。
さっそく分かち書き変更のせいなのかどうか、
確かめるべく調べてみました。
が、
> ・履歴で該当メッセージを開き、「現在のコーパスによる分類」に
> 違いがあるかどうかを確かめる
このところで躓いています。
こちらの「現在のコーパスによる分類」というのが
履歴からも履歴からメッセージをクリックしてシングルメッセージビューにいってもみつかりません...。
アドバイスいただけないでしょうか。
どうぞよろしくお願いいたします。
Reply to
#30718
RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-17 18:40 by
amatubu
#30730)
Ticket erstellen
> こちらの「現在のコーパスによる分類」というのが
> 履歴からも履歴からメッセージをクリックしてシングルメッセージビューにいってもみつかりません...。
説明不足ですみません。
「現在のコーパスによる分割」が表示されない場合は、既に分類されている
バケツと同じバケツに分類されるということです。
すなわち、分かち書きのプログラムが変わったことによる影響ではない
ということになりますね。
・履歴で該当メッセージを開き、「現在のコーパスによる分類」が
表示されるかどうかを確かめる(表示されれば分類結果が異なる)
と訂正します。
Reply to
#30719
RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-17 22:08 by
yahonda
#30734)
Ticket erstellen
どうもありがとうございます。
見逃しの理由は分かち書きの方法(kakasi or internal)によるものではありませんでした。
もうしばらく使い続けてみます。
Reply to
#30730
RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-18 02:29 by
amatubu
#30736)
Ticket erstellen
速度テストで使った 500 通のメールについて、Kakasi と内蔵パーサで
異なる分類結果になったものを抽出してみましたところ、3 通見つかりました。
(バケツは inbox と spam のみ。これまで Kakasi のみを使用)
分類結果が分かれたのはいずれもメールマガジン的なメールで、
・2 通は unclassified となった
(うち 1 通は Kakasi が spam に誤分類)
・1 通は spam と誤認識された
でした。
この 500 通だけ見れば、分類精度は Kakasi 99.8%、内蔵パーサ
99.4% で、0.4% の差ですね。
Reply to
#30734
RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-18 02:09 by
amatubu
#30735)
Ticket erstellen
> 0.22.2→0.22.3 や、0.22.4→0.22.5 の変化に比べれば
> 小さな効果しかないと思われます(おそらく 0.22.5 に
> 比べて数%程度向上するくらいでしょう)ので、そういう
> ものかもしれません。
0.22.2、0.22.4、0.22.5、0.22.5+パッチについてどの程度速度が
違うかを少し調べてみました。
http://d.hatena.ne.jp/amatubu/20070717#p1
サンプルに使うメールによっては異なる結果になると思いますが、
若干の効果はあるようです。
Reply to
#30718
RE: 分かち書きに MeCab や内蔵パーサ(文字種による分割)を使用するためのパッチ (2007-07-14 19:58 by
amatubu
#30668)
Ticket erstellen
Windows 版のインストーラをパッチセクションに登録しました。
http://sourceforge.jp/tracker/index.php?func=detail&aid=10694&group_id=759&atid=2945
また、MeCab 0.96 を含めたインストーラも作成しましたが、
大きすぎてパッチセクションには載せられませんでしたので
http://idisk.mac.com/amatubu/Public/POPFile/popfile_jpn_patch_w_mecab.zip
に置きました。
Mac 版はこれから準備します。
Reply to
#30628