[Senna-dev 620] tritonnの近傍・関連文書検索について

Zurück zum Archiv-Index

yukio ishi ishi.****@gmail*****
2007年 6月 27日 (水) 15:21:50 JST


はじめまして、石野と申します。
Senna+mysql+tritonnで、近傍・関連文書検索を試させていただいているのですが、
私の環境の問題でしょうか、正しく動作していないような気がします。
この検索結果で正しい動作なのか、またどういった仕組みでマッチしているのか、
ご存知の方いらっしゃいましたらご教授願えませんでしょうか。どうぞよろしくお願い致します。

mysql> CREATE TABLE t1 (c1 TEXT, FULLTEXT INDEX ft USING NGRAM (c1)) ENGINE
= MyISAM DEFAULT CHARSET utf8;

mysql> INSERT INTO t1 VALUES ("明日は晴れです。");
mysql> INSERT INTO t1 VALUES ("今日は雨です。");

mysql> SELECT c1 FROM t1 WHERE MATCH(c1) AGAINST('*S3今日は晴れです。' in boolean
mode);
+------------------+
| c1               |
+------------------+
| 明日は晴れです。 |
+------------------+
1 row in set (0.00 sec)

mysql> SELECT c1 FROM t1 WHERE MATCH(c1) AGAINST('*S3明日は雨です。' in boolean
mode);
+------------------+
| c1               |
+------------------+
| 明日は晴れです。 |
| 今日は雨です。   |
+------------------+
2 rows in set (0.00 sec)

mysql> SELECT c1 FROM t1 WHERE MATCH(c1) AGAINST('*N3今日は晴れです。' in boolean
mode);
Empty set (0.00 sec)

mysql> SELECT c1 FROM t1 WHERE MATCH(c1) AGAINST('*N3明日は雨です。' in boolean
mode);
Empty set (0.00 sec)

mysql> SHOW SENNA STATUS\G
                  Table: t1
               Key_name: ft
            Column_name: c1
               Encoding: euc_jp
             Index_type: NGRAM
              Normalize: ON
            Split_alpha: OFF
            Split_digit: OFF
           Split_symbol: OFF
     Initial_n_segments: 512
        Senna_keys_size: 5
   Senna_keys_file_size: 8462336
     Senna_lexicon_size: 64
Senna_lexicon_file_size: 8462336
     Senna_inv_seg_size: 4886528
   Senna_inv_chunk_size: 135168

■動作環境

  Linux kernel 2.4.20
  mysql-4.1.22
  senna-1.0.4
  tritonn-1.0.2.mysql-4.1.22.senna-1.0.4
  mecab-0.81

--
ishi.yukio [at] gmail.com



Senna-dev メーリングリストの案内
Zurück zum Archiv-Index