Download
Entwicklung
Konto
Download
Entwicklung
Anmelden
Vergessen Konto/Passwort
Konto erstellen
Sprache
Hilfe
Sprache
Hilfe
×
Anmelden
Anmeldename
Passwort
×
Vergessen Konto/Passwort
Übersetzungsstatus von Deutsch
Kategorie:
Software
Personen
PersonalForge
Magazine
Wiki
Suche
OSDN
>
Finden Software
>
Internet
>
WWW/HTTP
>
Indexing/Search
>
Ludia
>
Ticket-Liste / Suche
>
Ticket #11202
Ludia
Beschreibung
Projekt Zusammenfassung
Entwickler-Dashboard
Web-Seite
Entwickler
Bildergalerie
RSS Feed-Liste
Aktivität
Statistiken
Historie
Downloads
Aller Releases-Liste
Statistiken
Ticket
Ticket-Liste
Liste der Meilensteine
Typenliste
Komponentenliste
Liste der zuletzt benutzten Tickets/RSS
Neue Ticket abschicken
Dokumente
Wiki
Titelseite
Titel-Index
Kürzliche Änderungen
Doc Mgr
List Docs
Kommunikation
Foren
Forum-Liste
Hilfe (2)
Offene Diskussion (1)
Mailinglisten
Alle Mailinglisten
ludia-users
Neuigkeiten
Ticket #11202
Ticket-Liste
Neue Ticket abschicken
RSS
類似分書検索の特徴語抽出の条件について
Eröffnet am:
2007-10-26 19:29
Letztes Update:
2007-11-16 10:08
beobachte
ON
OFF
Auswertung:
ssn
Verantwortlicher:
(Keine)
Typ:
Fehler
Status:
Offen
Komponente:
(Keine)
Meilenstein:
(Keine)
Priorität:
5 - Mittel
Schweregrad:
5 - Mittel
Lösung:
Keine
Datei:
Keine
Details
Antworten
類似分書検索の特徴語抽出の条件について
■環境
Redhat Enterprise Linux 4 U5
ludia 1.3.1 (mecab-0.96 ipadic-2.7.0 senna-1.0.9
postgresql 8.2.4
■設定
postgres.conf
・ludia.max_n_sort_result = 100000
・ludia.enable_seqscan = on
・ludia_sen_index_flags = 31
・ludia.max_n_index_cache = 16
・ludia.initial_n_segments = 2048
■DB
・TABLE : id int4,data text
・DATA : id = 1,data = (ライオン、ゾウ)
・INDEX : fulltext ※形態素
■現象
特徴語の抽出条件は文章中で出現頻度が高い語のはずなので
1.ヒットするケース
whre DATA @@ '*S1 "ライオン ライオン トラ"'
形態素の出現頻度は
ライオン:2
トラ:1
ライオンが特徴語となりヒットする
2.ヒットしないケース
whre DATA @@ '*S1 "トラ ライオン ライオン"'
形態素の出現頻度は
トラ:1
ライオン:2
ライオンが特徴語となりヒットする
と思ったのですがヒットしません。
私的な見解では文章の先頭の後が特徴語として扱われている
ように思えます。
よろしくお願いします。
Ticket-Verlauf (3/6 Historien)
Show older Histories
2007-10-31 09:01
Aktualisiert von:
co-saka
Kommentar
Antworten
Logged In: YES
user_id=23292
ご報告ありがとうございます!!!
非常に助かります。
上記の件はsubversion上から取得できるSenna rev603を利用する
と、
正常な動作になります。
http://lists.sourceforge.jp/mailman/archives/senna-
dev/2007-October/000713.html
Subversionでの取得方法
http://qwik.jp/senna/Download.html
今後もバグなど見つかりましたら、
ご報告よろしくお願いします。
2007-11-09 11:57
Aktualisiert von:
ssn
Kommentar
Antworten
Logged In: YES
user_id=31583
rev 610にて確認しました。
上記の異常ケース
>2.ヒットしないケース
については対応確認出来ました。
ありがとうございます。
しかし新たに問題が…
3.ヒットするケース
whre DATA @@ '*S1 "トラ トラ ライオン"'
とした場合
形態素の出現頻度は
トラ:2
ライオン:1
トラが特徴語となりヒットしないと思ったのですが
ヒットしてしまいます。
仕様的に(fulltextで"*S1"の場合)
"検索文字列の中で一番出現頻度の高い形態素一つを検索文字列と
する"
で認識あってますよね?
また同じ出現頻度の物があった場合
例
検索文字列(トラ トラ ライオン ライオン)
抽出後 (トラ ライオン)
で *S1 とした場合はどちらで検索しに行くのでしょうか?
追加質問で申し訳ありませんが
よろしくお願いします。
2007-11-13 08:42
Aktualisiert von:
co-saka
Kommentar
Antworten
Logged In: YES
user_id=23292
> で認識あってますよね?
若干違います。検索文字列の中で出現頻度が高く、かつ、検索対
象の全レコードの中で出現頻度が低い(0は除く)形態素が特徴語
になります。
> 3.ヒットするケース
この場合は、検索対象が「ライオン、ゾウ」であるため、出現頻
度が0であるトラは特徴語になりません。
検索文字列が一般的な文章である場合に、検索文字列の中の出現
頻度だけで特徴語選出を行うと、「は」「の」などの助詞が特徴
語になってしまい、類似文書検索の意味がなくなってしまいま
す。
> また同じ出現頻度の物があった場合
rev610では、出現頻度が等しい場合は、先にインデックスに登録
された形態素が優先されます。しかし、これはrev610の仕様であ
るため、今後変わる可能性があります。
2007-11-13 11:44
Aktualisiert von:
ssn
Kommentar
Antworten
Logged In: YES
user_id=31583
問題解決しました。ありがとうございます。
類似検索のロジックについてはマニュアル等に載っていないと思う
のですが、
何か別のドキュメントに書いてあるのでしょうか?
2007-11-16 08:57
Aktualisiert von:
co-saka
Kommentar
Antworten
Logged In: YES
user_id=23292
類似検索のドキュメントについては、
下記リンクしかありません。
http://qwik.jp/senna/query.html
LudiaのREADMEにも書いたほうが良さそうですね。
2007-11-16 10:08
Aktualisiert von:
ssn
Kommentar
Antworten
Logged In: YES
user_id=31583
回答ありがとうございます。
sennaのサイトに類似検索について多少書いてあるのは知っていた
のですが、
できれば
実際こういう検索をしたらこれがhitする
というような明示的な解説が欲しいと思いました。
たぶんこれはludiaではなくsennaへの要望ですので、場違い的な質
問申し訳ありません。
Dateianhangliste (
0
)
Dateianhangliste
Keine Anhänge
Bearbeiten
Kommentar hinzufügen
You are not logged in.
I you are not logged in, your comment will be treated as an anonymous post. »
Anmelden
Kommentar hinzufügen
Vorschau
Abschicken
■環境
Redhat Enterprise Linux 4 U5
ludia 1.3.1 (mecab-0.96 ipadic-2.7.0 senna-1.0.9
postgresql 8.2.4
■設定
postgres.conf
・ludia.max_n_sort_result = 100000
・ludia.enable_seqscan = on
・ludia_sen_index_flags = 31
・ludia.max_n_index_cache = 16
・ludia.initial_n_segments = 2048
■DB
・TABLE : id int4,data text
・DATA : id = 1,data = (ライオン、ゾウ)
・INDEX : fulltext ※形態素
■現象
特徴語の抽出条件は文章中で出現頻度が高い語のはずなので
1.ヒットするケース
whre DATA @@ '*S1 "ライオン ライオン トラ"'
形態素の出現頻度は
ライオン:2
トラ:1
ライオンが特徴語となりヒットする
2.ヒットしないケース
whre DATA @@ '*S1 "トラ ライオン ライオン"'
形態素の出現頻度は
トラ:1
ライオン:2
ライオンが特徴語となりヒットする
と思ったのですがヒットしません。
私的な見解では文章の先頭の後が特徴語として扱われている
ように思えます。
よろしくお願いします。