OSDN > Finden Software > Internet > WWW/HTTP > Indexing/Search > Ludia > Ticket-Liste / Suche > Ticket #11202

Ludia

Ticket #11202
Ticket-Liste Neue Ticket abschicken RSS

類似分書検索の特徴語抽出の条件について

Eröffnet am: 2007-10-26 19:29 Letztes Update: 2007-11-16 10:08

beobachte

Auswertung:

ssn

Verantwortlicher:

(Keine)

Typ:

Fehler

Status:

Offen

Komponente:

(Keine)

Meilenstein:

(Keine)

Priorität:

5 - Mittel

Schweregrad:

5 - Mittel

Lösung:

Keine

Datei:

Keine

Details

類似分書検索の特徴語抽出の条件について

■環境
Redhat Enterprise Linux 4 U5
ludia 1.3.1 (mecab-0.96 ipadic-2.7.0 senna-1.0.9
postgresql 8.2.4

■設定
postgres.conf
・ludia.max_n_sort_result = 100000
・ludia.enable_seqscan = on
・ludia_sen_index_flags = 31
・ludia.max_n_index_cache = 16
・ludia.initial_n_segments = 2048

■DB
・TABLE : id int4,data text
・DATA : id = 1,data = (ライオン、ゾウ)
・INDEX : fulltext ※形態素

■現象

特徴語の抽出条件は文章中で出現頻度が高い語のはずなので

１．ヒットするケース
whre DATA @@ '*S1 "ライオン　ライオン　トラ"'
形態素の出現頻度は
ライオン:2
トラ:1
ライオンが特徴語となりヒットする

２．ヒットしないケース
whre DATA @@ '*S1 "トラ　ライオン　ライオン"'
形態素の出現頻度は
トラ:1
ライオン:2
ライオンが特徴語となりヒットする
と思ったのですがヒットしません。

私的な見解では文章の先頭の後が特徴語として扱われている
ように思えます。

よろしくお願いします。

Ticket-Verlauf (3/6 Historien)

2007-10-31 09:01 Aktualisiert von: co-saka

Kommentar

Logged In: YES
user_id=23292

ご報告ありがとうございます！！！
非常に助かります。

上記の件はsubversion上から取得できるSenna rev603を利用する
と、
正常な動作になります。
http://lists.sourceforge.jp/mailman/archives/senna-
dev/2007-October/000713.html

Subversionでの取得方法
http://qwik.jp/senna/Download.html

今後もバグなど見つかりましたら、
ご報告よろしくお願いします。

2007-11-09 11:57 Aktualisiert von: ssn

Kommentar

Logged In: YES
user_id=31583

rev 610にて確認しました。

上記の異常ケース
＞２．ヒットしないケース
については対応確認出来ました。
ありがとうございます。

しかし新たに問題が…
３．ヒットするケース
whre DATA @@ '*S1 "トラ　トラ　ライオン"'
とした場合
形態素の出現頻度は
トラ:2
ライオン:1
トラが特徴語となりヒットしないと思ったのですが
ヒットしてしまいます。

仕様的に(fulltextで"*S1"の場合)
"検索文字列の中で一番出現頻度の高い形態素一つを検索文字列と
する"
で認識あってますよね？

また同じ出現頻度の物があった場合
例
検索文字列(トラ　トラ　ライオン　ライオン)
抽出後 (トラ　ライオン)
で *S1　とした場合はどちらで検索しに行くのでしょうか？

追加質問で申し訳ありませんが

よろしくお願いします。

2007-11-13 08:42 Aktualisiert von: co-saka

Kommentar

Logged In: YES
user_id=23292

> で認識あってますよね？
若干違います。検索文字列の中で出現頻度が高く、かつ、検索対
象の全レコードの中で出現頻度が低い（0は除く）形態素が特徴語
になります。
> ３．ヒットするケース
この場合は、検索対象が「ライオン、ゾウ」であるため、出現頻
度が0であるトラは特徴語になりません。

検索文字列が一般的な文章である場合に、検索文字列の中の出現
頻度だけで特徴語選出を行うと、「は」「の」などの助詞が特徴
語になってしまい、類似文書検索の意味がなくなってしまいま
す。

> また同じ出現頻度の物があった場合
rev610では、出現頻度が等しい場合は、先にインデックスに登録
された形態素が優先されます。しかし、これはrev610の仕様であ
るため、今後変わる可能性があります。

2007-11-13 11:44 Aktualisiert von: ssn

Kommentar

Logged In: YES
user_id=31583

問題解決しました。ありがとうございます。

類似検索のロジックについてはマニュアル等に載っていないと思う
のですが、
何か別のドキュメントに書いてあるのでしょうか？

2007-11-16 08:57 Aktualisiert von: co-saka

Kommentar

Logged In: YES
user_id=23292

類似検索のドキュメントについては、
下記リンクしかありません。
http://qwik.jp/senna/query.html
LudiaのREADMEにも書いたほうが良さそうですね。

2007-11-16 10:08 Aktualisiert von: ssn

Kommentar

Logged In: YES
user_id=31583

回答ありがとうございます。

sennaのサイトに類似検索について多少書いてあるのは知っていた
のですが、
できれば
実際こういう検索をしたらこれがhitする
というような明示的な解説が欲しいと思いました。

たぶんこれはludiaではなくsennaへの要望ですので、場違い的な質
問申し訳ありません。

Dateianhangliste

Keine Anhänge

Ludia

Ticket #11202 Ticket-Liste Neue Ticket abschicken RSS

類似分書検索の特徴語抽出の条件について Eröffnet am: 2007-10-26 19:29 Letztes Update: 2007-11-16 10:08 beobachte ON OFF

Details Antworten

Ticket-Verlauf (3/6 Historien) Show older Histories

2007-10-31 09:01 Aktualisiert von: co-saka

Kommentar Antworten

2007-11-09 11:57 Aktualisiert von: ssn

Kommentar Antworten

2007-11-13 08:42 Aktualisiert von: co-saka

Kommentar Antworten

2007-11-13 11:44 Aktualisiert von: ssn

Kommentar Antworten

2007-11-16 08:57 Aktualisiert von: co-saka

Kommentar Antworten

2007-11-16 10:08 Aktualisiert von: ssn

Kommentar Antworten

Dateianhangliste

Bearbeiten

Ticket #11202
Ticket-Liste Neue Ticket abschicken RSS

類似分書検索の特徴語抽出の条件について

Eröffnet am: 2007-10-26 19:29 Letztes Update: 2007-11-16 10:08

beobachte

Details

Ticket-Verlauf (3/6 Historien)

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar