Shinsuke Sugaya
shins****@yahoo*****
2010年 1月 5日 (火) 23:16:49 JST
菅谷です。 情報をありがとうございます。 > #unprocessed documents は 400 台のようです。 これくらいで3時間ですと、期待外の動きです…。 ドキュメントサイズによると思いますが、「Sent 11 documents.〜」で Solr への投入が秒レベルの時間が かかるのも気になります。私のテストデータですと (Apache 系プロジェクトのソースコード)、数十ミリ秒で 投入している感じです。もしかしたら、 maxDocumentCacheSize を増やすのではなく、5とか 減らすと良いかもしれません。 あとは、クロール全般の「ドキュメント数毎にコミット 」を 500 とか減らしてしまってもよいかもしれません。 3時間近く止まる件ですが、こちらの継続動作テストで 全クロール停止のインデックス更新中に、管理画面で 停止すると、止まらなくなる問題が発覚したので修正 しました。(これでしたら、すいません…) http://sourceforge.jp/ticket/browse.php?group_id=4342&tid=20133 あとは問題を絞り込んでいくためには対象部分の ログレベルを DEBUG にしていただけると、より 分かってくるかと思います。webapps/fess/WEB-INF/ classes/log4j.xml の <logger name="jp.sf.fess.solr" > <level value ="debug" /> </logger> をコメントアウトから出していただけると、IndexUpdaterが よりいろいろと出力します。 > 以前 6000 を少し越えるところまで溜まった段階で時間切れで手動停 > 止したことはありますので、何か条件が異なるのだと思います。 対象データによるというのもありますが、現在、手元の テストデータでは 2 日くらいで 60 万件くらいはいけてます。 さすがにここら辺で遅くなってきていますが…。 shinsuke 2010年1月5日19:34 Masayuki Shibata <mshib****@shima*****>: > 柴田@亀岡市です。 > >>AuthChallengeProcessor のログを除いた、最後の数行ログは >>何になっているでしょうか? > ... >>しかし、その場合に3時間も返ってこないのは期待通り >>ではない感じです・・・。「You have XXX unprocessed >>documents.」のXXXがかなりの数になっていると別ですが。 >>(数千など) あとは、「The execution time is XXXms.」の >>XXX (Solrにドキュメントを送って処理した時間) が大体 >>どれくらいかも気になります。 > > ファイル名 (URL) のみ伏せ字にしてますが、以下が生ログです。 > #unprocessed documents は 400 台のようです。 > > 2010-01-05 12:22:42,875 [Robot-20100105092954-1-5] INFO > org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: http://hostname/svn/project/XXXXXXXXXXXXXX/ > 2010-01-05 12:22:42,890 [Robot-20100105092954-1-5] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - digest authentication scheme selected > 2010-01-05 12:22:42,921 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. > The execution time is 593ms. > 2010-01-05 12:29:36,640 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Stopped all crawler > threads. You have 497 unprocessed documents. > 2010-01-05 12:29:43,750 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sending 11 document > to a server. > 2010-01-05 12:29:43,906 [IndexUpdater] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 12:29:44,250 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. > The execution time is 500ms. > 2010-01-05 12:36:48,125 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Stopped all crawler > threads. You have 487 unprocessed documents. > 2010-01-05 12:49:21,562 [http-8080-2] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 12:49:25,750 [http-8080-5] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 13:27:47,578 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sending 11 document > to a server. > 2010-01-05 13:27:47,953 [IndexUpdater] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 13:27:48,593 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. > The execution time is 1015ms. > 2010-01-05 14:01:57,734 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Stopped all crawler > threads. You have 477 unprocessed documents. > 2010-01-05 14:08:13,906 [http-8080-5] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 14:08:17,281 [http-8080-5] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 14:11:18,875 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sending 11 document > to a server. > 2010-01-05 14:11:19,406 [IndexUpdater] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 14:11:20,187 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. > The execution time is 1312ms. > 2010-01-05 14:32:07,828 [http-8080-5] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 14:32:12,218 [http-8080-5] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 14:35:34,312 [http-8080-5] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > ... (同じ内容のログが20行ほど続く) > >>あとは、Tomcat の logs/catalina.out に >>何か出ていないでしょうか? > > 黙り込む直前 14:11:20 頃まで 「情報: {add=[http://...」という > ログが出ているのですが、最後の3回分がかなり時間間隔が開いてい > ます。 > > それ以前は1〜2秒間隔だったのが、最後の3つの間隔は1時間程度、 > (その1つ前とは7分くらい) ですので、急激にのろくなった感じで > 止まっています。 > > そのログの間に、クロール実行中の確認や、生きているかの確認のた > めの検索のログがはさまっているくらいで、特に不審なものは見あた > りません。 > > 少しずつ設定をチューニングしているので同じ条件ではありませんが > 以前 6000 を少し越えるところまで溜まった段階で時間切れで手動停 > 止したことはありますので、何か条件が異なるのだと思います。 > > _______________________________________________ > Fess-user mailing list > Fess-****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/fess-user >