[groonga-dev,04367] Re: pgroongaのログ出力内容について

Zurück zum Archiv-Index

Kouhei Sutou kou****@clear*****
2017年 5月 26日 (金) 09:19:09 JST


須藤です。

In <88817****@web10*****>
  "[groonga-dev,04365] Re: pgroongaのログ出力内容について" on Thu, 18 May 2017 18:40:54 +0900 (JST),
  tak_kaz24****@yahoo***** wrote:

> 現状では制限事項となる想定ですが、もし回避策等ありましたら教えてください(上限値を増やす方法など)。

上限値は増やすことはできません。
(増やすことは大変です。)

どういう文脈で「-」が使われているかわからないので一般的な話
をすると、「-」はノイズな気がするので、検索できなくてむしろ
いいんじゃないかという気はします。

どうしても検索したいという場合は複数の「-」を1つの「-」に置
換すればいいんじゃないかと思いました。(10万回「-」が出現し
ていても1回しか「-」が出現していないことにする。)

PostgreSQLには式インデックスがあるので、それを使えば実現でき
ると思います。

https://www.postgresql.jp/document/9.6/html/indexes-expressional.html

> 対応ありがとうございます!上記は最新のソースに反映されており、いずれpgroongaの1.2.1(仮)に反映される認識でOKでしょうか?

はい、その通りです。

> また373,665個以上ですと昔の情報にあった1つの文書あたり0x1ffff個(= 131071個)の制限と異なりますが何か別の制限事項があるのでしょうか。

ありません。「-」を0x1ffff個以上含む文書がログにでます。

最初に提供してもらったログ

> 2017-04-20 19:50:24.562000|w|2880: [ii][update][one] too many postings: <Lexicon72052_0.index>: n-postings:<504736>, n-discarded-postings:<373665>, term:<123>(<->)

では「-」が504736個含まれていて、373665個は切り捨てられてい
たので、少なくとも373665個くらいある文書がいろいろあるんだろ
うなぁと思って、例として373665個をだしてみただけです。

厳密な基準が必要であれば0x1ffff個以上含む文書と考えてくださ
い。


-- 
須藤 功平 <kou****@clear*****>
株式会社クリアコード <http://www.clear-code.com/>

Groongaベースの全文検索システムを総合サポート:
  http://groonga.org/ja/support/
パッチ採用 - プログラミングが楽しい人向けの採用プロセス:
  http://www.clear-code.com/recruitment/
OSS開発支援サービス:
  http://www.clear-code.com/blog/2016/6/27.html




groonga-dev メーリングリストの案内
Zurück zum Archiv-Index