Kouhei Sutou
kou****@clear*****
2017年 5月 26日 (金) 09:19:09 JST
須藤です。 In <88817****@web10*****> "[groonga-dev,04365] Re: pgroongaのログ出力内容について" on Thu, 18 May 2017 18:40:54 +0900 (JST), tak_kaz24****@yahoo***** wrote: > 現状では制限事項となる想定ですが、もし回避策等ありましたら教えてください(上限値を増やす方法など)。 上限値は増やすことはできません。 (増やすことは大変です。) どういう文脈で「-」が使われているかわからないので一般的な話 をすると、「-」はノイズな気がするので、検索できなくてむしろ いいんじゃないかという気はします。 どうしても検索したいという場合は複数の「-」を1つの「-」に置 換すればいいんじゃないかと思いました。(10万回「-」が出現し ていても1回しか「-」が出現していないことにする。) PostgreSQLには式インデックスがあるので、それを使えば実現でき ると思います。 https://www.postgresql.jp/document/9.6/html/indexes-expressional.html > 対応ありがとうございます!上記は最新のソースに反映されており、いずれpgroongaの1.2.1(仮)に反映される認識でOKでしょうか? はい、その通りです。 > また373,665個以上ですと昔の情報にあった1つの文書あたり0x1ffff個(= 131071個)の制限と異なりますが何か別の制限事項があるのでしょうか。 ありません。「-」を0x1ffff個以上含む文書がログにでます。 最初に提供してもらったログ > 2017-04-20 19:50:24.562000|w|2880: [ii][update][one] too many postings: <Lexicon72052_0.index>: n-postings:<504736>, n-discarded-postings:<373665>, term:<123>(<->) では「-」が504736個含まれていて、373665個は切り捨てられてい たので、少なくとも373665個くらいある文書がいろいろあるんだろ うなぁと思って、例として373665個をだしてみただけです。 厳密な基準が必要であれば0x1ffff個以上含む文書と考えてくださ い。 -- 須藤 功平 <kou****@clear*****> 株式会社クリアコード <http://www.clear-code.com/> Groongaベースの全文検索システムを総合サポート: http://groonga.org/ja/support/ パッチ採用 - プログラミングが楽しい人向けの採用プロセス: http://www.clear-code.com/recruitment/ OSS開発支援サービス: http://www.clear-code.com/blog/2016/6/27.html