From shinsuke @ yahoo.co.jp Sun Jan 3 08:54:35 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Sun, 3 Jan 2010 08:54:35 +0900 Subject: [fess-user 63] Re: =?iso-2022-jp?b?GyRCJUAlJCU4JSclOSVISjg7ek5zJHI9UCQ1JEobKEI=?= =?iso-2022-jp?b?GyRCJCRKfUshGyhC?= In-Reply-To: <200912281011.AA12146@ea8055.shimadzu.co.jp> References: <200912281011.AA12146@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 デザインページを追加しました。 検索画面については、JSP を直接カスタマイズする イメージでいたのでそれを管理画面で編集できるように しました。 ダイジェストの本文を消す場合は、「検索結果ページ (コンテンツ) 」を編集で、
の ブロックを消すとなくなると思います。元に戻すには 「デフォルトを使用」で保存すると戻ります。 shinsuke 2009年12月28日19:11 Masayuki Shibata : > 柴田@亀岡市です。 > > 以前の話題とは逆で、今度はダイジェスト文字列を出さずにリンクだけ提供 > したいというケースで何か方法はあるかお聞かせください。 > #無いならないで結構ですし、急ぎません。当方ももう年末年始モードに入 > #りますので... > > 要はファイル名一覧のような状態でリンクを提供する用途です。 > #Windows のファイル検索のイメージです。 > > ・たくさんヒットするので1画面にできるだけ表示したい。 > ・リンク先ファイルに読み取り権のある人にだけ中身を見せたい。 > > 後者はリンク先を開くときに認証がかかるようなケースで、リンクの下に > ダイジェストが表示されると、権限のない人でも検索しまくればその文字 > をつなぎ合わせて文書の中身が再現できてしまうという状態を回避したい > 場合に使い途があります。 > > クロールされる側 (この場合イメージしているのは Subversion です) に > 固定にキーワードを返す機能があれば無事中身は見えない算段ですが、そ > の表示に最低一行とられると前者の要求的に満たせなくなるので、Fess > 側でそれができるとよいのにと思った次第です。 > > ---------- > Shibata, Masayuki > Manager, Software Development > Shimadzu Corporation > Analytical Measuring Instruments Division > Research & Development Department > Telephone: 075-823-1441 Japan > Facsimile: 075-823-1365 Japan > E-mail: mshibata @ shimadzu.co.jp > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Tue Jan 5 17:19:32 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Tue, 05 Jan 2010 17:19:32 +0900 Subject: [fess-user 64] Re: =?iso-2022-jp?b?GyRCJUAlJCU4JSclOSVISjg7ek5zJHI9UCQ1JEobKEI=?= =?iso-2022-jp?b?GyRCJCRKfUshGyhC?= In-Reply-To: References: Message-ID: <201001050819.AA12155@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 ご対応ありがとうございました。 希望どおりの結果を得ることができました。 >菅谷です。 > >デザインページを追加しました。 >検索画面については、JSP を直接カスタマイズする >イメージでいたのでそれを管理画面で編集できるように >しました。 > >ダイジェストの本文を消す場合は、「検索結果ページ >(コンテンツ) 」を編集で、
の >ブロックを消すとなくなると思います。元に戻すには >「デフォルトを使用」で保存すると戻ります。 > >shinsuke > > >2009年12月28日19:11 Masayuki Shibata : >> 柴田@亀岡市です。 >> >> 以前の話題とは逆で、今度はダイジェスト文字列を出さずにリンクだけ提供 >> したいというケースで何か方法はあるかお聞かせください。 >> #無いならないで結構ですし、急ぎません。当方ももう年末年始モードに入 >> #りますので... >> >> 要はファイル名一覧のような状態でリンクを提供する用途です。 >> #Windows のファイル検索のイメージです。 >> >> ・たくさんヒットするので1画面にできるだけ表示したい。 >> ・リンク先ファイルに読み取り権のある人にだけ中身を見せたい。 >> >> 後者はリンク先を開くときに認証がかかるようなケースで、リンクの下に >> ダイジェストが表示されると、権限のない人でも検索しまくればその文字 >> をつなぎ合わせて文書の中身が再現できてしまうという状態を回避したい >> 場合に使い途があります。 >> >> クロールされる側 (この場合イメージしているのは Subversion です) に >> 固定にキーワードを返す機能があれば無事中身は見えない算段ですが、そ >> の表示に最低一行とられると前者の要求的に満たせなくなるので、Fess >> 側でそれができるとよいのにと思った次第です。 >> >> ---------- >> Shibata, Masayuki >> Manager, Software Development >> Shimadzu Corporation >> Analytical Measuring Instruments Division >> Research & Development Department >> Telephone: 075-823-1441 Japan >> Facsimile: 075-823-1365 Japan >> E-mail: mshibata @ shimadzu.co.jp >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Tue Jan 5 17:40:32 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Tue, 05 Jan 2010 17:40:32 +0900 Subject: [fess-user 65] =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+NFYbKEI=?= =?iso-2022-jp?b?GyRCJFskSTI/JGI1LyQzJGkkSiQkJE4kRyQ5JCwbKEIuLi4=?= Message-ID: <201001050840.AA12156@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 本日 1/5 朝 8:40 ごろダウンロードした SNAPSHOT で動かしています。 例によって Subversion 上をクロールしておりましたら 5000件でコミ ットした後ドキュメント数が増えていかなくなりました。 ログを見ると「システム設定」画面をクローラープロセスの実行中 or 停止の確認のため何度も開いたため... INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected というログが何行か続いているものの、ほかになにもログを吐いてい ない時間が3時間ほど続いているようです。 管理画面ではクローラープロセス実行中のままなのですが... 黙り込む前に... Stopped all crawler threads. You have XXX unprocessed documents. ...や Sent XXX documents. The execution time is XXXms. ...というログを何行か吐いてますが、お昼ごろにも同様のログを何行 も吐いている時間帯はあって、それはそのまま復帰してきてクロールを 続けていたのでシロなのかなぁとは思うのですが、エラーらしき行はそ の周辺にはありませんし... パスワードのかかっている PDF やマクロを含んでいて開くときにマク ロを実行するか聞いてくる Excel などをクロールするときは流石にエ ラーは出ていますが、黙り込んだ時間帯とはかなり離れていますし... 一応お知らせしておきます。 From shinsuke @ yahoo.co.jp Tue Jan 5 18:18:42 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Tue, 5 Jan 2010 18:18:42 +0900 Subject: [fess-user 66] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4u?= =?iso-2022-jp?b?Lg==?= In-Reply-To: <201001050840.AA12156@ea8055.shimadzu.co.jp> References: <201001050840.AA12156@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 > というログが何行か続いているものの、ほかになにもログを吐いてい > ない時間が3時間ほど続いているようです。 AuthChallengeProcessor のログを除いた、最後の数行ログは 何になっているでしょうか? あとは、Tomcat の logs/catalina.out に 何か出ていないでしょうか? > Stopped all crawler threads. You have XXX unprocessed documents. > Sent XXX documents. The execution time is XXXms. クロールと同時に Solr へドキュメントを投入していますが パフォーマンス向上のため、しきい値以上に未処理の ドキュメントがたまった場合は、クロールを停止して、 未処理のドキュメントを Solr に投入して、DB 内から 不要な部分を削除するようにしています。ですので、 これらのメッセージが表示後にクロールが再開されるのは 期待通りの動きになります。 しかし、その場合に3時間も返ってこないのは期待通り ではない感じです・・・。「You have XXX unprocessed documents.」のXXXがかなりの数になっていると別ですが。 (数千など) あとは、「The execution time is XXXms.」の XXX (Solrにドキュメントを送って処理した時間) が大体 どれくらいかも気になります。 クロールを停止する未処理のドキュメント数のしきい値は 現在、100 となっています。変更する場合は、webapps/ fess/WEB-INF/classes/app.dicon の 1000 とすると 1000 に変わると思います。 あとは、Solr に送るドキュメント数を増やすとパフォーマンスが 改善されるかもしれません(デフォルト10)。上記と同様に IndexUpdater で 1000 20 とすると、21 個ずつ Solr に送信されると思います。 shinsuke 2010年1月5日17:40 Masayuki Shibata : > 柴田@亀岡市です。 > > 本日 1/5 朝 8:40 ごろダウンロードした SNAPSHOT で動かしています。 > > 例によって Subversion 上をクロールしておりましたら 5000件でコミ > ットした後ドキュメント数が増えていかなくなりました。 > > ログを見ると「システム設定」画面をクローラープロセスの実行中 or > 停止の確認のため何度も開いたため... > > INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme > selected > > というログが何行か続いているものの、ほかになにもログを吐いてい > ない時間が3時間ほど続いているようです。 > > 管理画面ではクローラープロセス実行中のままなのですが... > > 黙り込む前に... > > Stopped all crawler threads. You have XXX unprocessed documents. > > ...や > > Sent XXX documents. The execution time is XXXms. > > ...というログを何行か吐いてますが、お昼ごろにも同様のログを何行 > も吐いている時間帯はあって、それはそのまま復帰してきてクロールを > 続けていたのでシロなのかなぁとは思うのですが、エラーらしき行はそ > の周辺にはありませんし... > > パスワードのかかっている PDF やマクロを含んでいて開くときにマク > ロを実行するか聞いてくる Excel などをクロールするときは流石にエ > ラーは出ていますが、黙り込んだ時間帯とはかなり離れていますし... > > 一応お知らせしておきます。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Tue Jan 5 18:45:40 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Tue, 05 Jan 2010 18:45:40 +0900 Subject: [fess-user 67] =?iso-2022-jp?b?GyRCJW0hPCVrQF9EaiROO0gkJEp9GyhC?= Message-ID: <201001050945.AA12157@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 この設定ですが、Tomcat にログインした ID のロールによって検索に ヒットするしないを 管理画面の「ウェブ」「ファイルシステム」の各 設定名ごとに決められるということでしょうか? もしそうなら以下の質問... ・ログインは任意? ログインしたときのロールが一致していなければヒットしないものが あるとして、ロール設定されていないクロール先だとログインしてい ない状態で検索できるのでしょうか? そうなるとロール設定のあるクロール先を検索したいときだけログイ ンする仕様でしょうか? それとも必ずログインして、ロール設定されてないクロール先は、ロ グインした ID のロールに関わらずヒットするという仕様でしょうか? もし前者なら以下の質問... ・ログイン画面は Fess が提供する? 管理画面を開こうとするとログイン画面が起きますが、そこで fess というロールの ID でログインすると管理画面にリダイレクトしてい ます。 違うロールの ID だと検索画面にリダイレクトしてクロール先のロー ル設定との一致不一致が検索条件の一部になるのでしょうか? #現状はエラーになるようですが... それとも ロール = fess 以外のログインは、Tomcat の機能を使って、 利用者側で用意する筋合いのものでしょうか? #だとすると管理画面を開くときのログイン画面の位置づけが何とな #く腑に落ちない気がするので、きっと前者かなと思ってるのですが... ・ユーザー管理機能も Fess が提供する? これは上の (現状見えている面子から組み立てのできる) 推理と違っ てまったく根拠のない質問ですが、何となく方向性としてそうかなと 思った次第です。 まったく外しているかも知れませんが、もしかしたらウチの需要にマ ッチした仕様かも知れませんので探りを入れさせてください。 これ (ロールの設定) とリクエストヘッダの設定が今のところ謎です ので、どうテストしたらよいものか...と。 From mshibata @ shimadzu.co.jp Tue Jan 5 19:34:18 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Tue, 05 Jan 2010 19:34:18 +0900 Subject: [fess-user 68] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4uLg==?= In-Reply-To: References: Message-ID: <201001051034.AA12158@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 >AuthChallengeProcessor のログを除いた、最後の数行ログは >何になっているでしょうか? ... >しかし、その場合に3時間も返ってこないのは期待通り >ではない感じです・・・。「You have XXX unprocessed >documents.」のXXXがかなりの数になっていると別ですが。 >(数千など) あとは、「The execution time is XXXms.」の >XXX (Solrにドキュメントを送って処理した時間) が大体 >どれくらいかも気になります。 ファイル名 (URL) のみ伏せ字にしてますが、以下が生ログです。 #unprocessed documents は 400 台のようです。 2010-01-05 12:22:42,875 [Robot-20100105092954-1-5] INFO org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: http://hostname/svn/project/XXXXXXXXXXXXXX/ 2010-01-05 12:22:42,890 [Robot-20100105092954-1-5] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - digest authentication scheme selected 2010-01-05 12:22:42,921 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. The execution time is 593ms. 2010-01-05 12:29:36,640 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Stopped all crawler threads. You have 497 unprocessed documents. 2010-01-05 12:29:43,750 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sending 11 document to a server. 2010-01-05 12:29:43,906 [IndexUpdater] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected 2010-01-05 12:29:44,250 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. The execution time is 500ms. 2010-01-05 12:36:48,125 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Stopped all crawler threads. You have 487 unprocessed documents. 2010-01-05 12:49:21,562 [http-8080-2] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected 2010-01-05 12:49:25,750 [http-8080-5] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected 2010-01-05 13:27:47,578 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sending 11 document to a server. 2010-01-05 13:27:47,953 [IndexUpdater] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected 2010-01-05 13:27:48,593 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. The execution time is 1015ms. 2010-01-05 14:01:57,734 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Stopped all crawler threads. You have 477 unprocessed documents. 2010-01-05 14:08:13,906 [http-8080-5] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected 2010-01-05 14:08:17,281 [http-8080-5] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected 2010-01-05 14:11:18,875 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sending 11 document to a server. 2010-01-05 14:11:19,406 [IndexUpdater] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected 2010-01-05 14:11:20,187 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. The execution time is 1312ms. 2010-01-05 14:32:07,828 [http-8080-5] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected 2010-01-05 14:32:12,218 [http-8080-5] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected 2010-01-05 14:35:34,312 [http-8080-5] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected ... (同じ内容のログが20行ほど続く) >あとは、Tomcat の logs/catalina.out に >何か出ていないでしょうか? 黙り込む直前 14:11:20 頃まで 「情報: {add=[http://...」という ログが出ているのですが、最後の3回分がかなり時間間隔が開いてい ます。 それ以前は1〜2秒間隔だったのが、最後の3つの間隔は1時間程度、 (その1つ前とは7分くらい) ですので、急激にのろくなった感じで 止まっています。 そのログの間に、クロール実行中の確認や、生きているかの確認のた めの検索のログがはさまっているくらいで、特に不審なものは見あた りません。 少しずつ設定をチューニングしているので同じ条件ではありませんが 以前 6000 を少し越えるところまで溜まった段階で時間切れで手動停 止したことはありますので、何か条件が異なるのだと思います。 From shinsuke @ yahoo.co.jp Tue Jan 5 23:16:49 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Tue, 5 Jan 2010 23:16:49 +0900 Subject: [fess-user 69] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4u?= =?iso-2022-jp?b?Lg==?= In-Reply-To: <201001051034.AA12158@ea8055.shimadzu.co.jp> References: <201001051034.AA12158@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 情報をありがとうございます。 > #unprocessed documents は 400 台のようです。 これくらいで3時間ですと、期待外の動きです…。 ドキュメントサイズによると思いますが、「Sent 11 documents.〜」で Solr への投入が秒レベルの時間が かかるのも気になります。私のテストデータですと (Apache 系プロジェクトのソースコード)、数十ミリ秒で 投入している感じです。もしかしたら、 maxDocumentCacheSize を増やすのではなく、5とか 減らすと良いかもしれません。 あとは、クロール全般の「ドキュメント数毎にコミット 」を 500 とか減らしてしまってもよいかもしれません。 3時間近く止まる件ですが、こちらの継続動作テストで 全クロール停止のインデックス更新中に、管理画面で 停止すると、止まらなくなる問題が発覚したので修正 しました。(これでしたら、すいません…) http://sourceforge.jp/ticket/browse.php?group_id=4342&tid=20133 あとは問題を絞り込んでいくためには対象部分の ログレベルを DEBUG にしていただけると、より 分かってくるかと思います。webapps/fess/WEB-INF/ classes/log4j.xml の をコメントアウトから出していただけると、IndexUpdaterが よりいろいろと出力します。 > 以前 6000 を少し越えるところまで溜まった段階で時間切れで手動停 > 止したことはありますので、何か条件が異なるのだと思います。 対象データによるというのもありますが、現在、手元の テストデータでは 2 日くらいで 60 万件くらいはいけてます。 さすがにここら辺で遅くなってきていますが…。 shinsuke 2010年1月5日19:34 Masayuki Shibata : > 柴田@亀岡市です。 > >>AuthChallengeProcessor のログを除いた、最後の数行ログは >>何になっているでしょうか? > ... >>しかし、その場合に3時間も返ってこないのは期待通り >>ではない感じです・・・。「You have XXX unprocessed >>documents.」のXXXがかなりの数になっていると別ですが。 >>(数千など) あとは、「The execution time is XXXms.」の >>XXX (Solrにドキュメントを送って処理した時間) が大体 >>どれくらいかも気になります。 > > ファイル名 (URL) のみ伏せ字にしてますが、以下が生ログです。 > #unprocessed documents は 400 台のようです。 > > 2010-01-05 12:22:42,875 [Robot-20100105092954-1-5] INFO > org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: http://hostname/svn/project/XXXXXXXXXXXXXX/ > 2010-01-05 12:22:42,890 [Robot-20100105092954-1-5] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - digest authentication scheme selected > 2010-01-05 12:22:42,921 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. > The execution time is 593ms. > 2010-01-05 12:29:36,640 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Stopped all crawler > threads. You have 497 unprocessed documents. > 2010-01-05 12:29:43,750 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sending 11 document > to a server. > 2010-01-05 12:29:43,906 [IndexUpdater] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 12:29:44,250 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. > The execution time is 500ms. > 2010-01-05 12:36:48,125 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Stopped all crawler > threads. You have 487 unprocessed documents. > 2010-01-05 12:49:21,562 [http-8080-2] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 12:49:25,750 [http-8080-5] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 13:27:47,578 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sending 11 document > to a server. > 2010-01-05 13:27:47,953 [IndexUpdater] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 13:27:48,593 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. > The execution time is 1015ms. > 2010-01-05 14:01:57,734 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Stopped all crawler > threads. You have 477 unprocessed documents. > 2010-01-05 14:08:13,906 [http-8080-5] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 14:08:17,281 [http-8080-5] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 14:11:18,875 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sending 11 document > to a server. > 2010-01-05 14:11:19,406 [IndexUpdater] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 14:11:20,187 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. > The execution time is 1312ms. > 2010-01-05 14:32:07,828 [http-8080-5] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 14:32:12,218 [http-8080-5] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-05 14:35:34,312 [http-8080-5] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > ... (同じ内容のログが20行ほど続く) > >>あとは、Tomcat の logs/catalina.out に >>何か出ていないでしょうか? > > 黙り込む直前 14:11:20 頃まで 「情報: {add=[http://...」という > ログが出ているのですが、最後の3回分がかなり時間間隔が開いてい > ます。 > > それ以前は1〜2秒間隔だったのが、最後の3つの間隔は1時間程度、 > (その1つ前とは7分くらい) ですので、急激にのろくなった感じで > 止まっています。 > > そのログの間に、クロール実行中の確認や、生きているかの確認のた > めの検索のログがはさまっているくらいで、特に不審なものは見あた > りません。 > > 少しずつ設定をチューニングしているので同じ条件ではありませんが > 以前 6000 を少し越えるところまで溜まった段階で時間切れで手動停 > 止したことはありますので、何か条件が異なるのだと思います。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Wed Jan 6 10:46:19 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Wed, 6 Jan 2010 10:46:19 +0900 Subject: [fess-user 70] Re: =?iso-2022-jp?b?GyRCJW0hPCVrQF9EaiROO0gkJEp9GyhC?= In-Reply-To: <201001050945.AA12157@ea8055.shimadzu.co.jp> References: <201001050945.AA12157@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 #ドキュメント化できていなくて、すいません… ロール機能は任意の認証システムにおいて、 認証されたユーザーの認証情報を元に検索結果を 出し分けることを想定しています。 たとえば、ポータルシステムにおいてログインした ユーザーのロールごとに検索結果を出し分ける ことなどがあげられます。ロールaを持つユーザーAは 検索結果にロールaの情報などが表示されるけど、 ロールaを持たないユーザーBは検索しても、それが 表示されない感じです。 私はポータルをよく作っているのですが、所属する 部門別や役職別などに検索のような要望を受けるので それを実現するための機能として用意しています。 (これを想定する全文検索システムはあまり見ない 気がしてますが…) 使い方としては、SSO ではいろいろとやることが多いかと 思いますが、別な認証システムでログインしたときに Fess が取得可能なクッキーに情報を入れてもらって、 認証情報を取得するとか、リバースプロキシ型 SSO で 認証したら、プロキシ経由で Fess にアクセスする際に リクエストヘッダーに認証情報を入れてもらうことで Fess でそれを取得するなどの使い方があるかと思い ます。 > この設定ですが、Tomcat にログインした ID のロールによって検索に > ヒットするしないを 管理画面の「ウェブ」「ファイルシステム」の各 > 設定名ごとに決められるということでしょうか? 「Tomcat にログインした ID のロール」というより 任意の認証システムにログインしたユーザーのロール などを想定しています。Fess 上ではロールとして いますが、何かの識別子であれば可能かと思います。 ロールを持つ各設定で作られたインデックスはその ロールを持つユーザーでないと検索結果に表示されない ことを想定しています。ロールがない設定は、ロールを 持つ・持たないにかかわらず、検索結果に表示されます。 > ・ログイン画面は Fess が提供する? > 管理画面を開こうとするとログイン画面が起きますが、そこで fess > というロールの ID でログインすると管理画面にリダイレクトしてい > ます。 現時点では、何かの認証システムにより設定された 情報をroleQueryHelperで取得するイメージでいました。 なので、細かいことをやろうとすると、自前で拡張する ことになります。 これですと、ロール機能を利用する敷居がかなり高い 気がしていたので、サンプルとして試せるように Fess のログインで管理者でなければ、検索に飛ばして ロールベースの検索ができるようにすると良い気が してきました。(ちょっと検討します) > ・ユーザー管理機能も Fess が提供する? これは考えてないです。任意のシステムの認証情報を どのように汎用的に利用していけるか、という点でいます。 ですので、ユーザー管理機能への連携機能は提供できれば 良いかと考えてます。 > リクエストヘッダの設定が今のところ謎です リクエストヘッダーの機能はドキュメントをクロールして 取得するときにリクエストヘッダーに付加されます。 たとえば、認証システムでヘッダー情報を見て、 特定の値があれば、自動でログインした状態に するなどの利用があるかと思います。某〜 Mini も この機能はあったかと思います。 shinsuke 2010年1月5日18:45 Masayuki Shibata : > 柴田@亀岡市です。 > > この設定ですが、Tomcat にログインした ID のロールによって検索に > ヒットするしないを 管理画面の「ウェブ」「ファイルシステム」の各 > 設定名ごとに決められるということでしょうか? > > もしそうなら以下の質問... > > ・ログインは任意? > ログインしたときのロールが一致していなければヒットしないものが > あるとして、ロール設定されていないクロール先だとログインしてい > ない状態で検索できるのでしょうか? > > そうなるとロール設定のあるクロール先を検索したいときだけログイ > ンする仕様でしょうか? > > それとも必ずログインして、ロール設定されてないクロール先は、ロ > グインした ID のロールに関わらずヒットするという仕様でしょうか? > > もし前者なら以下の質問... > > ・ログイン画面は Fess が提供する? > 管理画面を開こうとするとログイン画面が起きますが、そこで fess > というロールの ID でログインすると管理画面にリダイレクトしてい > ます。 > > 違うロールの ID だと検索画面にリダイレクトしてクロール先のロー > ル設定との一致不一致が検索条件の一部になるのでしょうか? > #現状はエラーになるようですが... > > それとも ロール = fess 以外のログインは、Tomcat の機能を使って、 > 利用者側で用意する筋合いのものでしょうか? > #だとすると管理画面を開くときのログイン画面の位置づけが何とな > #く腑に落ちない気がするので、きっと前者かなと思ってるのですが... > > ・ユーザー管理機能も Fess が提供する? > これは上の (現状見えている面子から組み立てのできる) 推理と違っ > てまったく根拠のない質問ですが、何となく方向性としてそうかなと > 思った次第です。 > > まったく外しているかも知れませんが、もしかしたらウチの需要にマ > ッチした仕様かも知れませんので探りを入れさせてください。 > > これ (ロールの設定) とリクエストヘッダの設定が今のところ謎です > ので、どうテストしたらよいものか...と。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Wed Jan 6 11:48:04 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Wed, 06 Jan 2010 11:48:04 +0900 Subject: [fess-user 71] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4uLg==?= In-Reply-To: References: Message-ID: <201001060248.AA12163@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 現象再現のため、昨日と同じバージョンで試しています。 条件もほぼ同じ (ロール設定のテストのためロール svnuser を設定 してみた... という状態が差異) ですが、クロールを開始してから ちょっと忙しくて (仕事中に走らせてますので) 管理画面を開かず にいたら2時間ほどで 4000件までドキュメント数が行ってました。 ところが管理画面を開いた (4000件也を確認) 後、ブラウザ上ログ アウトしてそのままほかのサイトをしばらく見ていたところ、 Tomcat のターミナル出力にいままで順調に表示されていた 情報: {add=[http://... ...のログがしばらく出てこなくなっていました。 以下ターミナル出力の状況です。1行目までずっと順調で2行目か ら管理画面を開けたときに出る文字列を表示してます。 10:34 ごろに 4000件也を確認しログアウトし、10:52 ごろにターミ ナルに何も出てこないのを再度ログインして確認。 ログアウトしてブラウザを閉じたところ何やら出力されています。 #Found a TextHeaderAtom not... の行です。 fess.out のログの方を見ると画面に出てなくても順調にクロールし ているようなのですが... 何故かターミナルには出てこなくなってい ました。そういうもののような気もしますが、少し長いような... ...でその後、しばらくして復活はしているのですが、以下の 10-17 行目に表示されている 3999 (4000 - 1) にまつわる出力行が少し気 になります。 不具合ではないかも知れませんが、一応お知らせしておきます。 #現在 5000件まで行っているので、現象再現するかもう少ししたら #結果が出ます。後ほどまたご報告します。 01| 情報: {add=[http://{省略: URL の羅列}...;type=pc;role=svnuser, ...(3 more)]} 0 94 02| 2010/01/06 10:34:45 org.apache.solr.core.SolrCore execute 03| 情報: [] webapp=/solr path=/update params={wt=javabin&version=2.2} status=0 QTime=94 04| 2010/01/06 10:36:13 org.apache.solr.core.SolrCore execute 05| 情報: [] webapp=/solr path=/select params={facet=true&sort=segment+desc&q=*: *&facet.field=segment&wt=javabin&version=2.2} hits=12158 status=0 QTime=94 06| 2010/01/06 10:52:02 org.apache.solr.core.SolrCore execute 07| 情報: [] webapp=/solr path=/select params={facet=true&sort=segment+desc&wt=javabin&version= 2.2&q=*:*&facet.field=segment} hits=12158 status=0 QTime=0 08| 2010/01/06 10:52:44 org.apache.solr.core.SolrCore execute 09| 情報: [] webapp=/solr path=/select params={facet=true&sort=segment+desc&wt=javabin&version= 2.2&q=*:*&facet.field=segment} hits=12158 status=0 QTime=0 10| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999 11| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999 12| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999 13| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999 14| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999 15| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999 16| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999 17| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999 >菅谷です。 > >情報をありがとうございます。 > >> #unprocessed documents は 400 台のようです。 > >これくらいで3時間ですと、期待外の動きです…。 > >ドキュメントサイズによると思いますが、「Sent 11 >documents.〜」で Solr への投入が秒レベルの時間が >かかるのも気になります。私のテストデータですと >(Apache 系プロジェクトのソースコード)、数十ミリ秒で >投入している感じです。もしかしたら、 >maxDocumentCacheSize を増やすのではなく、5とか >減らすと良いかもしれません。 > >あとは、クロール全般の「ドキュメント数毎にコミット 」を >500 とか減らしてしまってもよいかもしれません。 > >3時間近く止まる件ですが、こちらの継続動作テストで >全クロール停止のインデックス更新中に、管理画面で >停止すると、止まらなくなる問題が発覚したので修正 >しました。(これでしたら、すいません…) > >http://sourceforge.jp/ticket/browse.php?group_id=4342&tid=20133 > >あとは問題を絞り込んでいくためには対象部分の >ログレベルを DEBUG にしていただけると、より >分かってくるかと思います。webapps/fess/WEB-INF/ >classes/log4j.xml の > > > > > >をコメントアウトから出していただけると、IndexUpdaterが >よりいろいろと出力します。 > >> 以前 6000 を少し越えるところまで溜まった段階で時間切れで手動停 >> 止したことはありますので、何か条件が異なるのだと思います。 > >対象データによるというのもありますが、現在、手元の >テストデータでは 2 日くらいで 60 万件くらいはいけてます。 >さすがにここら辺で遅くなってきていますが…。 > >shinsuke > > >2010年1月5日19:34 Masayuki Shibata : >> 柴田@亀岡市です。 >> >>>AuthChallengeProcessor のログを除いた、最後の数行ログは >>>何になっているでしょうか? >> ... >>>しかし、その場合に3時間も返ってこないのは期待通り >>>ではない感じです・・・。「You have XXX unprocessed >>>documents.」のXXXがかなりの数になっていると別ですが。 >>>(数千など) あとは、「The execution time is XXXms.」の >>>XXX (Solrにドキュメントを送って処理した時間) が大体 >>>どれくらいかも気になります。 >> >> ファイル名 (URL) のみ伏せ字にしてますが、以下が生ログです。 >> #unprocessed documents は 400 台のようです。 >> >> 2010-01-05 12:22:42,875 [Robot-20100105092954-1-5] INFO >> org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: http://hostname/svn/project/XXXXXXXXXXXXXX/ >> 2010-01-05 12:22:42,890 [Robot-20100105092954-1-5] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - digest authentication scheme selected >> 2010-01-05 12:22:42,921 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. >> The execution time is 593ms. >> 2010-01-05 12:29:36,640 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Stopped all crawler >> threads. You have 497 unprocessed documents. >> 2010-01-05 12:29:43,750 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sending 11 document >> to a server. >> 2010-01-05 12:29:43,906 [IndexUpdater] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> 2010-01-05 12:29:44,250 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. >> The execution time is 500ms. >> 2010-01-05 12:36:48,125 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Stopped all crawler >> threads. You have 487 unprocessed documents. >> 2010-01-05 12:49:21,562 [http-8080-2] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> 2010-01-05 12:49:25,750 [http-8080-5] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> 2010-01-05 13:27:47,578 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sending 11 document >> to a server. >> 2010-01-05 13:27:47,953 [IndexUpdater] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> 2010-01-05 13:27:48,593 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. >> The execution time is 1015ms. >> 2010-01-05 14:01:57,734 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Stopped all crawler >> threads. You have 477 unprocessed documents. >> 2010-01-05 14:08:13,906 [http-8080-5] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> 2010-01-05 14:08:17,281 [http-8080-5] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> 2010-01-05 14:11:18,875 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sending 11 document >> to a server. >> 2010-01-05 14:11:19,406 [IndexUpdater] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> 2010-01-05 14:11:20,187 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - Sent 11 documents. >> The execution time is 1312ms. >> 2010-01-05 14:32:07,828 [http-8080-5] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> 2010-01-05 14:32:12,218 [http-8080-5] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> 2010-01-05 14:35:34,312 [http-8080-5] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> ... (同じ内容のログが20行ほど続く) >> >>>あとは、Tomcat の logs/catalina.out に >>>何か出ていないでしょうか? >> >> 黙り込む直前 14:11:20 頃まで 「情報: {add=[http://...」という >> ログが出ているのですが、最後の3回分がかなり時間間隔が開いてい >> ます。 >> >> それ以前は1〜2秒間隔だったのが、最後の3つの間隔は1時間程度、 >> (その1つ前とは7分くらい) ですので、急激にのろくなった感じで >> 止まっています。 >> >> そのログの間に、クロール実行中の確認や、生きているかの確認のた >> めの検索のログがはさまっているくらいで、特に不審なものは見あた >> りません。 >> >> 少しずつ設定をチューニングしているので同じ条件ではありませんが >> 以前 6000 を少し越えるところまで溜まった段階で時間切れで手動停 >> 止したことはありますので、何か条件が異なるのだと思います。 >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Wed Jan 6 14:11:38 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Wed, 06 Jan 2010 14:11:38 +0900 Subject: [fess-user 72] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4uLg==?= In-Reply-To: <201001060248.AA12163@ea8055.shimadzu.co.jp> References: <201001060248.AA12163@ea8055.shimadzu.co.jp> Message-ID: <201001060511.AA12166@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 >#現在 5000件まで行っているので、現象再現するかもう少ししたら >#結果が出ます。後ほどまたご報告します。 どうやら再現しています。 前回、強制的に Tomcat を終了させたところ、ドキュメント数 5850 まで行っていましたので、その数字は超えたようですが、ログ行の 時間間隔が開いてきており、似たような状態に見えます。 4000 までは速かったのですが、4000 → 5000 には1時間半ほどか かった (9時ごろクロール開始で 4000 到達 10時半、5000 到達 が11時半) 後、管理画面上 5000 に貼り付いたままです。 #内部的には 5852 に到達。 ファイル名を伏せた状態のログを添付しておきます。 ---------- Shibata, Masayuki Manager, Software Development Shimadzu Corporation Analytical Measuring Instruments Division Research & Development Department Telephone: 075-823-1441 Japan Facsimile: 075-823-1365 Japan E-mail: mshibata @ shimadzu.co.jp -------------- next part -------------- テキスト形式以外の添付ファイルを保管しました... ファイル名: fess.out.zip 型: application/x-zip-compressed サイズ: 113140 バイト 説明: 無し URL: http://lists.sourceforge.jp/mailman/archives/fess-user/attachments/20100106/f70db8f9/attachment-0001.bin From shinsuke @ yahoo.co.jp Wed Jan 6 15:28:12 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Wed, 6 Jan 2010 15:28:12 +0900 Subject: [fess-user 73] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4u?= =?iso-2022-jp?b?Lg==?= In-Reply-To: <201001060511.AA12166@ea8055.shimadzu.co.jp> References: <201001060248.AA12163@ea8055.shimadzu.co.jp> <201001060511.AA12166@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 情報をありがとうございます。 2010-01-06 13:39:41,968 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://hostname/svn/pjname/.../.../.../.../.../.../filename.log 止まった最後にある、この filename.log はこれだけを クロールしたときには正常に終了するでしょうか? 特定のファイルで発生するのかを切り分けたいと 考えています。 shinsuke 2010年1月6日14:11 Masayuki Shibata : > 柴田@亀岡市です。 > >>#現在 5000件まで行っているので、現象再現するかもう少ししたら >>#結果が出ます。後ほどまたご報告します。 > > どうやら再現しています。 > > 前回、強制的に Tomcat を終了させたところ、ドキュメント数 5850 > まで行っていましたので、その数字は超えたようですが、ログ行の > 時間間隔が開いてきており、似たような状態に見えます。 > > 4000 までは速かったのですが、4000 → 5000 には1時間半ほどか > かった (9時ごろクロール開始で 4000 到達 10時半、5000 到達 > が11時半) 後、管理画面上 5000 に貼り付いたままです。 > #内部的には 5852 に到達。 > > ファイル名を伏せた状態のログを添付しておきます。 > > ---------- > Shibata, Masayuki > Manager, Software Development > Shimadzu Corporation > Analytical Measuring Instruments Division > Research & Development Department > Telephone: 075-823-1441 Japan > Facsimile: 075-823-1365 Japan > E-mail: mshibata @ shimadzu.co.jp > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > From mshibata @ shimadzu.co.jp Wed Jan 6 16:43:00 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Wed, 06 Jan 2010 16:43:00 +0900 Subject: [fess-user 74] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4uLg==?= In-Reply-To: References: Message-ID: <201001060743.AA12170@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 ログ的には正常に終了するようです。 ただクローラープロセスが実行中のまま戻っては来なくなっています が... ここしばらくのテストでは、実行中のものを Tomcat レベルで強制終 了せざるを得ない状況が続いていましたので、本件のファイルのせい かどうかはわかりません。 >菅谷です。 > >情報をありがとうございます。 > >2010-01-06 13:39:41,968 [IndexUpdater] DEBUG >jp.sf.fess.solr.IndexUpdater - Indexing >http://hostname/svn/pjname/.../.../.../.../.../.../filename.log > >止まった最後にある、この filename.log はこれだけを >クロールしたときには正常に終了するでしょうか? >特定のファイルで発生するのかを切り分けたいと >考えています。 > >shinsuke > >2010年1月6日14:11 Masayuki Shibata : >> 柴田@亀岡市です。 >> >>>#現在 5000件まで行っているので、現象再現するかもう少ししたら >>>#結果が出ます。後ほどまたご報告します。 >> >> どうやら再現しています。 >> >> 前回、強制的に Tomcat を終了させたところ、ドキュメント数 5850 >> まで行っていましたので、その数字は超えたようですが、ログ行の >> 時間間隔が開いてきており、似たような状態に見えます。 >> >> 4000 までは速かったのですが、4000 → 5000 には1時間半ほどか >> かった (9時ごろクロール開始で 4000 到達 10時半、5000 到達 >> が11時半) 後、管理画面上 5000 に貼り付いたままです。 >> #内部的には 5852 に到達。 >> >> ファイル名を伏せた状態のログを添付しておきます。 >> >> ---------- >> Shibata, Masayuki >> Manager, Software Development >> Shimadzu Corporation >> Analytical Measuring Instruments Division >> Research & Development Department >> Telephone: 075-823-1441 Japan >> Facsimile: 075-823-1365 Japan >> E-mail: mshibata @ shimadzu.co.jp >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > ---------- Shibata, Masayuki Manager, Software Development Shimadzu Corporation Analytical Measuring Instruments Division Research & Development Department Telephone: 075-823-1441 Japan Facsimile: 075-823-1365 Japan E-mail: mshibata @ shimadzu.co.jp From mshibata @ shimadzu.co.jp Wed Jan 6 17:38:10 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Wed, 06 Jan 2010 17:38:10 +0900 Subject: [fess-user 75] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4uLg==?= In-Reply-To: <201001060743.AA12170@ea8055.shimadzu.co.jp> References: <201001060743.AA12170@ea8055.shimadzu.co.jp> Message-ID: <201001060838.AA12171@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 ウソ書いてしまいました。ちゃんと終わっていないようです。 本件と同種のファイルの場合 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename.log 2010-01-06 17:23:21,375 [http-8080-3] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected 2010-01-06 17:23:31,453 [Thread-22] INFO jp.sf.fess.helper.WebIndexHelper - [EXEC TIME] crawling time: 89219ms ...と、この種のファイルに出会うと「[EXEC TIME] crawling time: xxxxxms」が 出ます。 document cache が 11 に到達する前にクロールを止めてしまっているようで、 その後の... [EXEC TIME] index update time: xxxxxms [EXEC TIME] index optimize time: xxxxxms ...が登場せず、クローラープロセスが終了しません。 このファイルですが、1.4 MByte ほどあるテキストファイルです。 Shift-JIS で「半角カナ」が混じっており、ログですので同じ用語が何度も繰 り返し登場している (15,000 行ほどの) というあたりに特徴があります。 >柴田@亀岡市です。 > >ログ的には正常に終了するようです。 > >ただクローラープロセスが実行中のまま戻っては来なくなっています >が... > >ここしばらくのテストでは、実行中のものを Tomcat レベルで強制終 >了せざるを得ない状況が続いていましたので、本件のファイルのせい >かどうかはわかりません。 > >>菅谷です。 >> >>情報をありがとうございます。 >> >>2010-01-06 13:39:41,968 [IndexUpdater] DEBUG >>jp.sf.fess.solr.IndexUpdater - Indexing >>http://hostname/svn/pjname/.../.../.../.../.../.../filename.log >> >>止まった最後にある、この filename.log はこれだけを >>クロールしたときには正常に終了するでしょうか? >>特定のファイルで発生するのかを切り分けたいと >>考えています。 >> >>shinsuke >> >>2010年1月6日14:11 Masayuki Shibata : >>> 柴田@亀岡市です。 >>> >>>>#現在 5000件まで行っているので、現象再現するかもう少ししたら >>>>#結果が出ます。後ほどまたご報告します。 >>> >>> どうやら再現しています。 >>> >>> 前回、強制的に Tomcat を終了させたところ、ドキュメント数 5850 >>> まで行っていましたので、その数字は超えたようですが、ログ行の >>> 時間間隔が開いてきており、似たような状態に見えます。 >>> >>> 4000 までは速かったのですが、4000 → 5000 には1時間半ほどか >>> かった (9時ごろクロール開始で 4000 到達 10時半、5000 到達 >>> が11時半) 後、管理画面上 5000 に貼り付いたままです。 >>> #内部的には 5852 に到達。 >>> >>> ファイル名を伏せた状態のログを添付しておきます。 >>> >>> ---------- >>> Shibata, Masayuki >>> Manager, Software Development >>> Shimadzu Corporation >>> Analytical Measuring Instruments Division >>> Research & Development Department >>> Telephone: 075-823-1441 Japan >>> Facsimile: 075-823-1365 Japan >>> E-mail: mshibata @ shimadzu.co.jp >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >>> >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >---------- >Shibata, Masayuki >Manager, Software Development >Shimadzu Corporation >Analytical Measuring Instruments Division >Research & Development Department >Telephone: 075-823-1441 Japan >Facsimile: 075-823-1365 Japan >E-mail: mshibata @ shimadzu.co.jp ---------- Shibata, Masayuki Manager, Software Development Shimadzu Corporation Analytical Measuring Instruments Division Research & Development Department Telephone: 075-823-1441 Japan Facsimile: 075-823-1365 Japan E-mail: mshibata @ shimadzu.co.jp From mshibata @ shimadzu.co.jp Wed Jan 6 17:55:53 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Wed, 06 Jan 2010 17:55:53 +0900 Subject: [fess-user 76] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4uLg==?= In-Reply-To: <201001060838.AA12171@ea8055.shimadzu.co.jp> References: <201001060838.AA12171@ea8055.shimadzu.co.jp> Message-ID: <201001060855.AA12172@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 さらに訂正です。バタバタしてスミマセン。 >ウソ書いてしまいました。ちゃんと終わっていないようです。 ... >...と、この種のファイルに出会うと「[EXEC TIME] crawling time: xxxxxms」が >出ます。 > >document cache が 11 に到達する前にクロールを止めてしまっているようで、 >その後の... >[EXEC TIME] index update time: xxxxxms >[EXEC TIME] index optimize time: xxxxxms >...が登場せず、クローラープロセスが終了しません。 終了していないのではなく、今まで同様にファイルのインデックス作るのが 超遅くて、次のログ行が出てくるまでに時間間隔があいていただけでした。 以下、そのときのログです。 問題のファイルは 拡張子 log のもので、同じフォルダ配下に 拡張子 c の ものも少しあり、それはすぐ終わっていますが、log には時間を要している という図式です。 ... 2010-01-06 17:23:02,234 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Processing documents in IndexUpdater queue. 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 12. The processing size is 10. The execution time is 453ms. 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../ 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost (100.0). 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. The number of a document cache is 1. 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an added document is 1. 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename1.c 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost (100.0). 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. The number of a document cache is 2. 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an added document is 2. 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename2.c 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost (100.0). 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. The number of a document cache is 3. 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an added document is 3. 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename3.c 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost (100.0). 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. The number of a document cache is 4. 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an added document is 4. 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename4.c 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost (100.0). 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. The number of a document cache is 5. 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an added document is 5. 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename5.c 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost (100.0). 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. The number of a document cache is 6. 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an added document is 6. 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename1.log 2010-01-06 17:23:21,375 [http-8080-3] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected 2010-01-06 17:23:31,453 [Thread-22] INFO jp.sf.fess.helper.WebIndexHelper - [EXEC TIME] crawling time: 89219ms 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost (100.0). 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. The number of a document cache is 7. 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an added document is 7. 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename2.log 2010-01-06 17:39:54,218 [http-8080-3] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected From shinsuke @ yahoo.co.jp Thu Jan 7 08:53:27 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Thu, 7 Jan 2010 08:53:27 +0900 Subject: [fess-user 77] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4u?= =?iso-2022-jp?b?Lg==?= In-Reply-To: <201001060855.AA12172@ea8055.shimadzu.co.jp> References: <201001060838.AA12171@ea8055.shimadzu.co.jp> <201001060855.AA12172@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 調査していただきありがとうございます。 私もここのところ、厳しめのテストをいろいろと 実行していますが、1M近くサイズがあることと IndexUpdater が普通の処理で止まっている ことを考えると、GC で時間がかかっている ことも考えられます。ヒープがいっぱいになると、 GC で確保しようとして、IndexUpdater とかで 停止しているような状態を観測したことがあります。 ですので、bin/setenv.[bat|sh] の -Xmx512m を -Xmx1024m とか変更すると改善するかも しれません。 > Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999 上記については、POI が出しているようなので 何とかできるものなのか、時間があるときに 見てみます。 shinsuke 2010年1月6日17:55 Masayuki Shibata : > 柴田@亀岡市です。 > > さらに訂正です。バタバタしてスミマセン。 > >>ウソ書いてしまいました。ちゃんと終わっていないようです。 > ... >>...と、この種のファイルに出会うと「[EXEC TIME] crawling time: xxxxxms」が >>出ます。 >> >>document cache が 11 に到達する前にクロールを止めてしまっているようで、 >>その後の... >>[EXEC TIME] index update time: xxxxxms >>[EXEC TIME] index optimize time: xxxxxms >>...が登場せず、クローラープロセスが終了しません。 > > 終了していないのではなく、今まで同様にファイルのインデックス作るのが > 超遅くて、次のログ行が出てくるまでに時間間隔があいていただけでした。 > > 以下、そのときのログです。 > > 問題のファイルは 拡張子 log のもので、同じフォルダ配下に 拡張子 c の > ものも少しあり、それはすぐ終わっていますが、log には時間を要している > という図式です。 > > ... > 2010-01-06 17:23:02,234 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Processing documents > in IndexUpdater queue. > 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of a > crawled document is 12. The processing size is 10. The execution time is 453ms. > 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../ > 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost > (100.0). > 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. > The number of a document cache is 1. > 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an > added document is 1. > 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename1.c > 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost > (100.0). > 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. > The number of a document cache is 2. > 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an > added document is 2. > 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename2.c > 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost > (100.0). > 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. > The number of a document cache is 3. > 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an > added document is 3. > 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename3.c > 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost > (100.0). > 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. > The number of a document cache is 4. > 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an > added document is 4. > 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename4.c > 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost > (100.0). > 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. > The number of a document cache is 5. > 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an > added document is 5. > 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename5.c > 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost > (100.0). > 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. > The number of a document cache is 6. > 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an > added document is 6. > 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename1.log > 2010-01-06 17:23:21,375 [http-8080-3] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-06 17:23:31,453 [Thread-22] INFO jp.sf.fess.helper.WebIndexHelper - [EXEC TIME] crawling > time: 89219ms > 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost > (100.0). > 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. > The number of a document cache is 7. > 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an > added document is 7. > 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename2.log > 2010-01-06 17:39:54,218 [http-8080-3] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Thu Jan 7 10:31:46 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Thu, 07 Jan 2010 10:31:46 +0900 Subject: [fess-user 78] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4uLg==?= In-Reply-To: <201001060855.AA12172@ea8055.shimadzu.co.jp> References: <201001060855.AA12172@ea8055.shimadzu.co.jp> Message-ID: <201001070131.AA12173@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 我慢して一晩動かしてみました。 正常に終了しました。 C のソースが 5 個 (ファイルサイズ小、無視できる) と本件の タイプのログファイルが 5 個 (サイズはマチマチ) それと検索 対象外のバイナリが 2 個あるフォルダをクロールして 10 時間 ほどかかりました。 ただ単にファイルが大きすぎたということなのか、ログの行間で 10 分から 40 分離れて出てくるものがいくつもありました。 GC かも知れないということですのでメモリを確保した状態で再 試してみます。 >柴田@亀岡市です。 > >さらに訂正です。バタバタしてスミマセン。 > >>ウソ書いてしまいました。ちゃんと終わっていないようです。 >... >>...と、この種のファイルに出会うと「[EXEC TIME] crawling time: xxxxxms」が >>出ます。 >> >>document cache が 11 に到達する前にクロールを止めてしまっているようで、 >>その後の... >>[EXEC TIME] index update time: xxxxxms >>[EXEC TIME] index optimize time: xxxxxms >>...が登場せず、クローラープロセスが終了しません。 > >終了していないのではなく、今まで同様にファイルのインデックス作るのが >超遅くて、次のログ行が出てくるまでに時間間隔があいていただけでした。 > >以下、そのときのログです。 後略... From mshibata @ shimadzu.co.jp Thu Jan 7 14:59:06 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Thu, 07 Jan 2010 14:59:06 +0900 Subject: [fess-user 79] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4uLg==?= In-Reply-To: References: Message-ID: <201001070559.AA12174@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 メモリ確保してやってみてますが、あまり速くはなっていないようです。 以下のログですと 2010-01-07 13:47:23,578、2010-01-07 14:03:01,921 の間 16 分空いてます。 その後今 (14:55) までずっと応答がないのでログを開いて見たら、例外 が出ておりましたので以下に貼り付けておきます。 16 分ですと、以前の 1 時間とか 40 分とかと比較して速いのか遅いの かわからないのですが、その後の Indexing http://hostname/svn/pjname/.../.* 行が登場する前にエラーが出てしまいましたし、現時点で 50 分以上経過 していますので、ここでいったん止めます。 2010-01-07 13:47:23,578 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://hostname/svn/pjname/.../filename5.log 2010-01-07 13:53:52,750 [http-8080-2] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost (100.0). 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. The number of a document cache is 8. 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an added document is 8. 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://hostname/svn/pjname/.../filename3.log 2010-01-07 14:06:02,453 [http-8080-2] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected 2010-01-07 14:23:27,500 [http-8080-2] INFO org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected 2010-01-07 14:25:12,750 [http-8080-2] ERROR jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor - System error occured. org.seasar.framework.exception.IORuntimeException: [ESSR0040]IO例外が発生しました。理由は ClientAbortException: java.net.SocketException: Connection reset by peer: socket write error at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:98) at org.seasar.struts.util.ResponseUtil.download(ResponseUtil.java:93) at jp.sf.fess.action.admin.LogAction.download(LogAction.java:82) at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.$$download $$invokeSuperMethod$$(LogAction$$EnhancedByS2AOP$$818805.java) at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation $$download0.proceed(MethodInvocationClassGenerator.java) at org.seasar.framework.aop.interceptors.ThrowsInterceptor.invoke (ThrowsInterceptor.java:79) at jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor.invoke (FessActionMessagesThrowsInterceptor.java:36) at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation $$download0.proceed(MethodInvocationClassGenerator.java) at org.seasar.framework.aop.interceptors.TraceInterceptor.invoke (TraceInterceptor.java:56) at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation $$download0.proceed(MethodInvocationClassGenerator.java) at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.download(LogAction $$EnhancedByS2AOP$$818805.java) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at org.seasar.framework.util.MethodUtil.invoke(MethodUtil.java:96) at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:139) at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:87) at org.apache.struts.action.RequestProcessor.processActionPerform (RequestProcessor.java:431) at org.seasar.struts.action.S2RequestProcessor.process(S2RequestProcessor.java:132) at org.apache.struts.action.ActionServlet.process(ActionServlet.java:1196) at org.apache.struts.action.ActionServlet.doGet(ActionServlet.java:414) at javax.servlet.http.HttpServlet.service(HttpServlet.java:617) at javax.servlet.http.HttpServlet.service(HttpServlet.java:717) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:290) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter (HotdeployFilter.java:71) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.seasar.framework.container.filter.S2ContainerFilter.doFilter (S2ContainerFilter.java:79) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.apache.catalina.core.ApplicationDispatcher.invoke(ApplicationDispatcher.java:646) at org.apache.catalina.core.ApplicationDispatcher.processRequest (ApplicationDispatcher.java:436) at org.apache.catalina.core.ApplicationDispatcher.doForward (ApplicationDispatcher.java:374) at org.apache.catalina.core.ApplicationDispatcher.forward(ApplicationDispatcher.java:302) at org.seasar.struts.filter.RoutingFilter.forward(RoutingFilter.java:219) at org.seasar.struts.filter.RoutingFilter.doFilter(RoutingFilter.java:99) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at jp.sf.fess.filter.AuthenticationFilter.doFilter(AuthenticationFilter.java:98) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter (HotdeployFilter.java:71) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.seasar.framework.container.filter.S2ContainerFilter.doFilter (S2ContainerFilter.java:79) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:233) at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:191) at org.apache.catalina.authenticator.AuthenticatorBase.invoke(AuthenticatorBase.java:433) at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:128) at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:102) at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:109) at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:293) at org.apache.coyote.http11.Http11Processor.process(Http11Processor.java:849) at org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.process (Http11Protocol.java:583) at org.apache.tomcat.util.net.JIoEndpoint$Worker.run(JIoEndpoint.java:454) at java.lang.Thread.run(Thread.java:619) Caused by: ClientAbortException: java.net.SocketException: Connection reset by peer: socket write error at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:358) at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:325) at org.apache.catalina.connector.OutputBuffer.writeBytes(OutputBuffer.java:381) at org.apache.catalina.connector.OutputBuffer.write(OutputBuffer.java:370) at org.apache.catalina.connector.CoyoteOutputStream.write(CoyoteOutputStream.java:89) at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:95) ... 67 more Caused by: java.net.SocketException: Connection reset by peer: socket write error at java.net.SocketOutputStream.socketWrite0(Native Method) at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:92) at java.net.SocketOutputStream.write(SocketOutputStream.java:136) at org.apache.coyote.http11.InternalOutputBuffer.realWriteBytes (InternalOutputBuffer.java:740) at org.apache.tomcat.util.buf.ByteChunk.flushBuffer(ByteChunk.java:434) at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:349) at org.apache.coyote.http11.InternalOutputBuffer$OutputStreamOutputBuffer.doWrite (InternalOutputBuffer.java:764) at org.apache.coyote.http11.filters.ChunkedOutputFilter.doWrite (ChunkedOutputFilter.java:126) at org.apache.coyote.http11.InternalOutputBuffer.doWrite(InternalOutputBuffer.java:573) at org.apache.coyote.Response.doWrite(Response.java:560) at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:353) ... 72 more 2010-01-07 14:25:12,750 [http-8080-3] ERROR jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor - System error occured. org.seasar.framework.exception.IORuntimeException: [ESSR0040]IO例外が発生しました。理由は ClientAbortException: java.net.SocketException: Connection reset by peer: socket write error at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:98) at org.seasar.struts.util.ResponseUtil.download(ResponseUtil.java:93) at jp.sf.fess.action.admin.LogAction.download(LogAction.java:82) at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.$$download $$invokeSuperMethod$$(LogAction$$EnhancedByS2AOP$$818805.java) at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation $$download0.proceed(MethodInvocationClassGenerator.java) at org.seasar.framework.aop.interceptors.ThrowsInterceptor.invoke (ThrowsInterceptor.java:79) at jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor.invoke (FessActionMessagesThrowsInterceptor.java:36) at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation $$download0.proceed(MethodInvocationClassGenerator.java) at org.seasar.framework.aop.interceptors.TraceInterceptor.invoke (TraceInterceptor.java:56) at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation $$download0.proceed(MethodInvocationClassGenerator.java) at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.download(LogAction $$EnhancedByS2AOP$$818805.java) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at org.seasar.framework.util.MethodUtil.invoke(MethodUtil.java:96) at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:139) at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:87) at org.apache.struts.action.RequestProcessor.processActionPerform (RequestProcessor.java:431) at org.seasar.struts.action.S2RequestProcessor.process(S2RequestProcessor.java:132) at org.apache.struts.action.ActionServlet.process(ActionServlet.java:1196) at org.apache.struts.action.ActionServlet.doGet(ActionServlet.java:414) at javax.servlet.http.HttpServlet.service(HttpServlet.java:617) at javax.servlet.http.HttpServlet.service(HttpServlet.java:717) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:290) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter (HotdeployFilter.java:71) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.seasar.framework.container.filter.S2ContainerFilter.doFilter (S2ContainerFilter.java:79) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.apache.catalina.core.ApplicationDispatcher.invoke(ApplicationDispatcher.java:646) at org.apache.catalina.core.ApplicationDispatcher.processRequest (ApplicationDispatcher.java:436) at org.apache.catalina.core.ApplicationDispatcher.doForward (ApplicationDispatcher.java:374) at org.apache.catalina.core.ApplicationDispatcher.forward(ApplicationDispatcher.java:302) at org.seasar.struts.filter.RoutingFilter.forward(RoutingFilter.java:219) at org.seasar.struts.filter.RoutingFilter.doFilter(RoutingFilter.java:99) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at jp.sf.fess.filter.AuthenticationFilter.doFilter(AuthenticationFilter.java:98) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter (HotdeployFilter.java:71) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.seasar.framework.container.filter.S2ContainerFilter.doFilter (S2ContainerFilter.java:79) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:206) at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:233) at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:191) at org.apache.catalina.authenticator.AuthenticatorBase.invoke(AuthenticatorBase.java:433) at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:128) at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:102) at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:109) at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:293) at org.apache.coyote.http11.Http11Processor.process(Http11Processor.java:849) at org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.process (Http11Protocol.java:583) at org.apache.tomcat.util.net.JIoEndpoint$Worker.run(JIoEndpoint.java:454) at java.lang.Thread.run(Thread.java:619) Caused by: ClientAbortException: java.net.SocketException: Connection reset by peer: socket write error at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:358) at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:325) at org.apache.catalina.connector.OutputBuffer.writeBytes(OutputBuffer.java:381) at org.apache.catalina.connector.OutputBuffer.write(OutputBuffer.java:370) at org.apache.catalina.connector.CoyoteOutputStream.write(CoyoteOutputStream.java:89) at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:95) ... 67 more Caused by: java.net.SocketException: Connection reset by peer: socket write error at java.net.SocketOutputStream.socketWrite0(Native Method) at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:92) at java.net.SocketOutputStream.write(SocketOutputStream.java:136) at org.apache.coyote.http11.InternalOutputBuffer.realWriteBytes (InternalOutputBuffer.java:740) at org.apache.tomcat.util.buf.ByteChunk.flushBuffer(ByteChunk.java:434) at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:349) at org.apache.coyote.http11.InternalOutputBuffer$OutputStreamOutputBuffer.doWrite (InternalOutputBuffer.java:764) at org.apache.coyote.http11.filters.ChunkedOutputFilter.doWrite (ChunkedOutputFilter.java:126) at org.apache.coyote.http11.InternalOutputBuffer.doWrite(InternalOutputBuffer.java:573) at org.apache.coyote.Response.doWrite(Response.java:560) at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:353) ... 72 more >菅谷です。 > >調査していただきありがとうございます。 > >私もここのところ、厳しめのテストをいろいろと >実行していますが、1M近くサイズがあることと >IndexUpdater が普通の処理で止まっている >ことを考えると、GC で時間がかかっている >ことも考えられます。ヒープがいっぱいになると、 >GC で確保しようとして、IndexUpdater とかで >停止しているような状態を観測したことがあります。 >ですので、bin/setenv.[bat|sh] の -Xmx512m を >-Xmx1024m とか変更すると改善するかも >しれません。 > >> Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999 > >上記については、POI が出しているようなので >何とかできるものなのか、時間があるときに >見てみます。 > >shinsuke > > >2010年1月6日17:55 Masayuki Shibata : >> 柴田@亀岡市です。 >> >> さらに訂正です。バタバタしてスミマセン。 >> >>>ウソ書いてしまいました。ちゃんと終わっていないようです。 >> ... >>>...と、この種のファイルに出会うと「[EXEC TIME] crawling time: xxxxxms」が >>>出ます。 >>> >>>document cache が 11 に到達する前にクロールを止めてしまっているようで、 >>>その後の... >>>[EXEC TIME] index update time: xxxxxms >>>[EXEC TIME] index optimize time: xxxxxms >>>...が登場せず、クローラープロセスが終了しません。 >> >> 終了していないのではなく、今まで同様にファイルのインデックス作るのが >> 超遅くて、次のログ行が出てくるまでに時間間隔があいていただけでした。 >> >> 以下、そのときのログです。 >> >> 問題のファイルは 拡張子 log のもので、同じフォルダ配下に 拡張子 c の >> ものも少しあり、それはすぐ終わっていますが、log には時間を要している >> という図式です。 >> >> ... >> 2010-01-06 17:23:02,234 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Processing documents >> in IndexUpdater queue. >> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of a >> crawled document is 12. The processing size is 10. The execution time is 453ms. >> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../ >> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost >> (100.0). >> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. >> The number of a document cache is 1. >> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >> added document is 1. >> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename1.c >> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost >> (100.0). >> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. >> The number of a document cache is 2. >> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >> added document is 2. >> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename2.c >> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost >> (100.0). >> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. >> The number of a document cache is 3. >> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >> added document is 3. >> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename3.c >> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost >> (100.0). >> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. >> The number of a document cache is 4. >> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >> added document is 4. >> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename4.c >> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost >> (100.0). >> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. >> The number of a document cache is 5. >> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >> added document is 5. >> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename5.c >> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost >> (100.0). >> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. >> The number of a document cache is 6. >> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >> added document is 6. >> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename1.log >> 2010-01-06 17:23:21,375 [http-8080-3] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> 2010-01-06 17:23:31,453 [Thread-22] INFO jp.sf.fess.helper.WebIndexHelper - [EXEC TIME] crawling >> time: 89219ms >> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost >> (100.0). >> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. >> The number of a document cache is 7. >> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >> added document is 7. >> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename2.log >> 2010-01-06 17:39:54,218 [http-8080-3] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > ---------- Shibata, Masayuki Manager, Software Development Shimadzu Corporation Analytical Measuring Instruments Division Research & Development Department Telephone: 075-823-1441 Japan Facsimile: 075-823-1365 Japan E-mail: mshibata @ shimadzu.co.jp From shinsuke @ yahoo.co.jp Thu Jan 7 15:28:46 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Thu, 7 Jan 2010 15:28:46 +0900 Subject: [fess-user 80] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4u?= =?iso-2022-jp?b?Lg==?= In-Reply-To: <201001070559.AA12174@ea8055.shimadzu.co.jp> References: <201001070559.AA12174@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 試していただきありがとうございます。 ClientAbortException に関しては、おそらく管理画面を 表示していて、読み込みを終了前に次のリクエストが 発生してしまったため、発生したものと思われます。 (リロードを連続で呼ぶとそれが出たりすると思います) 無視してしまって問題ないので、これを拾わないように します。 ですので、その Exception はクロール処理に影響は ない感じですが、GC でないとすると、Solr のドキュメントも 秒レベルの時間がかかることから、マシンスペック的に それくらいの可能性も考えられます。クロール処理は そこそこメモリーを使うので(条件によりますが観測して いる感じですと、200m〜300mとか)、これらがスワップに 飛ばされたりすると遅くなると思います。ということも あるのですが、マシンスペック的にはいかがでしょうか? shinsuke 2010年1月7日14:59 Masayuki Shibata : > 柴田@亀岡市です。 > > メモリ確保してやってみてますが、あまり速くはなっていないようです。 > > 以下のログですと 2010-01-07 13:47:23,578、2010-01-07 14:03:01,921 > の間 16 分空いてます。 > > その後今 (14:55) までずっと応答がないのでログを開いて見たら、例外 > が出ておりましたので以下に貼り付けておきます。 > > 16 分ですと、以前の 1 時間とか 40 分とかと比較して速いのか遅いの > かわからないのですが、その後の > Indexing http://hostname/svn/pjname/.../.* > 行が登場する前にエラーが出てしまいましたし、現時点で 50 分以上経過 > していますので、ここでいったん止めます。 > > > 2010-01-07 13:47:23,578 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://hostname/svn/pjname/.../filename5.log > 2010-01-07 13:53:52,750 [http-8080-2] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost > (100.0). > 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. > The number of a document cache is 8. > 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an > added document is 8. > 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://hostname/svn/pjname/.../filename3.log > 2010-01-07 14:06:02,453 [http-8080-2] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-07 14:23:27,500 [http-8080-2] INFO > org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected > 2010-01-07 14:25:12,750 [http-8080-2] ERROR > jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor - System error occured. > org.seasar.framework.exception.IORuntimeException: [ESSR0040]IO例外が発生しました。理由は > ClientAbortException: java.net.SocketException: Connection reset by peer: socket write error > at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:98) > at org.seasar.struts.util.ResponseUtil.download(ResponseUtil.java:93) > at jp.sf.fess.action.admin.LogAction.download(LogAction.java:82) > at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.$$download > $$invokeSuperMethod$$(LogAction$$EnhancedByS2AOP$$818805.java) > at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation > $$download0.proceed(MethodInvocationClassGenerator.java) > at org.seasar.framework.aop.interceptors.ThrowsInterceptor.invoke > (ThrowsInterceptor.java:79) > at jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor.invoke > (FessActionMessagesThrowsInterceptor.java:36) > at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation > $$download0.proceed(MethodInvocationClassGenerator.java) > at org.seasar.framework.aop.interceptors.TraceInterceptor.invoke > (TraceInterceptor.java:56) > at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation > $$download0.proceed(MethodInvocationClassGenerator.java) > at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.download(LogAction > $$EnhancedByS2AOP$$818805.java) > at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) > at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) > at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) > at java.lang.reflect.Method.invoke(Method.java:597) > at org.seasar.framework.util.MethodUtil.invoke(MethodUtil.java:96) > at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:139) > at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:87) > at org.apache.struts.action.RequestProcessor.processActionPerform > (RequestProcessor.java:431) > at org.seasar.struts.action.S2RequestProcessor.process(S2RequestProcessor.java:132) > at org.apache.struts.action.ActionServlet.process(ActionServlet.java:1196) > at org.apache.struts.action.ActionServlet.doGet(ActionServlet.java:414) > at javax.servlet.http.HttpServlet.service(HttpServlet.java:617) > at javax.servlet.http.HttpServlet.service(HttpServlet.java:717) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:290) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter > (HotdeployFilter.java:71) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.seasar.framework.container.filter.S2ContainerFilter.doFilter > (S2ContainerFilter.java:79) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) > at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.apache.catalina.core.ApplicationDispatcher.invoke(ApplicationDispatcher.java:646) > at org.apache.catalina.core.ApplicationDispatcher.processRequest > (ApplicationDispatcher.java:436) > at org.apache.catalina.core.ApplicationDispatcher.doForward > (ApplicationDispatcher.java:374) > at org.apache.catalina.core.ApplicationDispatcher.forward(ApplicationDispatcher.java:302) > at org.seasar.struts.filter.RoutingFilter.forward(RoutingFilter.java:219) > at org.seasar.struts.filter.RoutingFilter.doFilter(RoutingFilter.java:99) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at jp.sf.fess.filter.AuthenticationFilter.doFilter(AuthenticationFilter.java:98) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter > (HotdeployFilter.java:71) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.seasar.framework.container.filter.S2ContainerFilter.doFilter > (S2ContainerFilter.java:79) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) > at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:233) > at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:191) > at org.apache.catalina.authenticator.AuthenticatorBase.invoke(AuthenticatorBase.java:433) > at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:128) > at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:102) > at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:109) > at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:293) > at org.apache.coyote.http11.Http11Processor.process(Http11Processor.java:849) > at org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.process > (Http11Protocol.java:583) > at org.apache.tomcat.util.net.JIoEndpoint$Worker.run(JIoEndpoint.java:454) > at java.lang.Thread.run(Thread.java:619) > Caused by: ClientAbortException: java.net.SocketException: Connection reset by peer: socket > write error > at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:358) > at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:325) > at org.apache.catalina.connector.OutputBuffer.writeBytes(OutputBuffer.java:381) > at org.apache.catalina.connector.OutputBuffer.write(OutputBuffer.java:370) > at org.apache.catalina.connector.CoyoteOutputStream.write(CoyoteOutputStream.java:89) > at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:95) > ... 67 more > Caused by: java.net.SocketException: Connection reset by peer: socket write error > at java.net.SocketOutputStream.socketWrite0(Native Method) > at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:92) > at java.net.SocketOutputStream.write(SocketOutputStream.java:136) > at org.apache.coyote.http11.InternalOutputBuffer.realWriteBytes > (InternalOutputBuffer.java:740) > at org.apache.tomcat.util.buf.ByteChunk.flushBuffer(ByteChunk.java:434) > at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:349) > at org.apache.coyote.http11.InternalOutputBuffer$OutputStreamOutputBuffer.doWrite > (InternalOutputBuffer.java:764) > at org.apache.coyote.http11.filters.ChunkedOutputFilter.doWrite > (ChunkedOutputFilter.java:126) > at org.apache.coyote.http11.InternalOutputBuffer.doWrite(InternalOutputBuffer.java:573) > at org.apache.coyote.Response.doWrite(Response.java:560) > at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:353) > ... 72 more > 2010-01-07 14:25:12,750 [http-8080-3] ERROR > jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor - System error occured. > org.seasar.framework.exception.IORuntimeException: [ESSR0040]IO例外が発生しました。理由は > ClientAbortException: java.net.SocketException: Connection reset by peer: socket write error > at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:98) > at org.seasar.struts.util.ResponseUtil.download(ResponseUtil.java:93) > at jp.sf.fess.action.admin.LogAction.download(LogAction.java:82) > at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.$$download > $$invokeSuperMethod$$(LogAction$$EnhancedByS2AOP$$818805.java) > at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation > $$download0.proceed(MethodInvocationClassGenerator.java) > at org.seasar.framework.aop.interceptors.ThrowsInterceptor.invoke > (ThrowsInterceptor.java:79) > at jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor.invoke > (FessActionMessagesThrowsInterceptor.java:36) > at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation > $$download0.proceed(MethodInvocationClassGenerator.java) > at org.seasar.framework.aop.interceptors.TraceInterceptor.invoke > (TraceInterceptor.java:56) > at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation > $$download0.proceed(MethodInvocationClassGenerator.java) > at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.download(LogAction > $$EnhancedByS2AOP$$818805.java) > at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) > at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) > at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) > at java.lang.reflect.Method.invoke(Method.java:597) > at org.seasar.framework.util.MethodUtil.invoke(MethodUtil.java:96) > at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:139) > at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:87) > at org.apache.struts.action.RequestProcessor.processActionPerform > (RequestProcessor.java:431) > at org.seasar.struts.action.S2RequestProcessor.process(S2RequestProcessor.java:132) > at org.apache.struts.action.ActionServlet.process(ActionServlet.java:1196) > at org.apache.struts.action.ActionServlet.doGet(ActionServlet.java:414) > at javax.servlet.http.HttpServlet.service(HttpServlet.java:617) > at javax.servlet.http.HttpServlet.service(HttpServlet.java:717) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:290) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter > (HotdeployFilter.java:71) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.seasar.framework.container.filter.S2ContainerFilter.doFilter > (S2ContainerFilter.java:79) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) > at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.apache.catalina.core.ApplicationDispatcher.invoke(ApplicationDispatcher.java:646) > at org.apache.catalina.core.ApplicationDispatcher.processRequest > (ApplicationDispatcher.java:436) > at org.apache.catalina.core.ApplicationDispatcher.doForward > (ApplicationDispatcher.java:374) > at org.apache.catalina.core.ApplicationDispatcher.forward(ApplicationDispatcher.java:302) > at org.seasar.struts.filter.RoutingFilter.forward(RoutingFilter.java:219) > at org.seasar.struts.filter.RoutingFilter.doFilter(RoutingFilter.java:99) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at jp.sf.fess.filter.AuthenticationFilter.doFilter(AuthenticationFilter.java:98) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter > (HotdeployFilter.java:71) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.seasar.framework.container.filter.S2ContainerFilter.doFilter > (S2ContainerFilter.java:79) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) > at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) > at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter > (ApplicationFilterChain.java:235) > at org.apache.catalina.core.ApplicationFilterChain.doFilter > (ApplicationFilterChain.java:206) > at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:233) > at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:191) > at org.apache.catalina.authenticator.AuthenticatorBase.invoke(AuthenticatorBase.java:433) > at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:128) > at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:102) > at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:109) > at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:293) > at org.apache.coyote.http11.Http11Processor.process(Http11Processor.java:849) > at org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.process > (Http11Protocol.java:583) > at org.apache.tomcat.util.net.JIoEndpoint$Worker.run(JIoEndpoint.java:454) > at java.lang.Thread.run(Thread.java:619) > Caused by: ClientAbortException: java.net.SocketException: Connection reset by peer: socket > write error > at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:358) > at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:325) > at org.apache.catalina.connector.OutputBuffer.writeBytes(OutputBuffer.java:381) > at org.apache.catalina.connector.OutputBuffer.write(OutputBuffer.java:370) > at org.apache.catalina.connector.CoyoteOutputStream.write(CoyoteOutputStream.java:89) > at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:95) > ... 67 more > Caused by: java.net.SocketException: Connection reset by peer: socket write error > at java.net.SocketOutputStream.socketWrite0(Native Method) > at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:92) > at java.net.SocketOutputStream.write(SocketOutputStream.java:136) > at org.apache.coyote.http11.InternalOutputBuffer.realWriteBytes > (InternalOutputBuffer.java:740) > at org.apache.tomcat.util.buf.ByteChunk.flushBuffer(ByteChunk.java:434) > at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:349) > at org.apache.coyote.http11.InternalOutputBuffer$OutputStreamOutputBuffer.doWrite > (InternalOutputBuffer.java:764) > at org.apache.coyote.http11.filters.ChunkedOutputFilter.doWrite > (ChunkedOutputFilter.java:126) > at org.apache.coyote.http11.InternalOutputBuffer.doWrite(InternalOutputBuffer.java:573) > at org.apache.coyote.Response.doWrite(Response.java:560) > at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:353) > ... 72 more > >>菅谷です。 >> >>調査していただきありがとうございます。 >> >>私もここのところ、厳しめのテストをいろいろと >>実行していますが、1M近くサイズがあることと >>IndexUpdater が普通の処理で止まっている >>ことを考えると、GC で時間がかかっている >>ことも考えられます。ヒープがいっぱいになると、 >>GC で確保しようとして、IndexUpdater とかで >>停止しているような状態を観測したことがあります。 >>ですので、bin/setenv.[bat|sh] の -Xmx512m を >>-Xmx1024m とか変更すると改善するかも >>しれません。 >> >>> Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999 >> >>上記については、POI が出しているようなので >>何とかできるものなのか、時間があるときに >>見てみます。 >> >>shinsuke >> >> >>2010年1月6日17:55 Masayuki Shibata : >>> 柴田@亀岡市です。 >>> >>> さらに訂正です。バタバタしてスミマセン。 >>> >>>>ウソ書いてしまいました。ちゃんと終わっていないようです。 >>> ... >>>>...と、この種のファイルに出会うと「[EXEC TIME] crawling time: xxxxxms」が >>>>出ます。 >>>> >>>>document cache が 11 に到達する前にクロールを止めてしまっているようで、 >>>>その後の... >>>>[EXEC TIME] index update time: xxxxxms >>>>[EXEC TIME] index optimize time: xxxxxms >>>>...が登場せず、クローラープロセスが終了しません。 >>> >>> 終了していないのではなく、今まで同様にファイルのインデックス作るのが >>> 超遅くて、次のログ行が出てくるまでに時間間隔があいていただけでした。 >>> >>> 以下、そのときのログです。 >>> >>> 問題のファイルは 拡張子 log のもので、同じフォルダ配下に 拡張子 c の >>> ものも少しあり、それはすぐ終わっていますが、log には時間を要している >>> という図式です。 >>> >>> ... >>> 2010-01-06 17:23:02,234 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Processing > documents >>> in IndexUpdater queue. >>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of a >>> crawled document is 12. The processing size is 10. The execution time is 453ms. >>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../ >>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document > boost >>> (100.0). >>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the > document. >>> The number of a document cache is 1. >>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>> added document is 1. >>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename1.c >>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document > boost >>> (100.0). >>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the > document. >>> The number of a document cache is 2. >>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>> added document is 2. >>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename2.c >>> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document > boost >>> (100.0). >>> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the > document. >>> The number of a document cache is 3. >>> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>> added document is 3. >>> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename3.c >>> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document > boost >>> (100.0). >>> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the > document. >>> The number of a document cache is 4. >>> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>> added document is 4. >>> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename4.c >>> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document > boost >>> (100.0). >>> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the > document. >>> The number of a document cache is 5. >>> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>> added document is 5. >>> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename5.c >>> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document > boost >>> (100.0). >>> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the > document. >>> The number of a document cache is 6. >>> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>> added document is 6. >>> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename1.log >>> 2010-01-06 17:23:21,375 [http-8080-3] INFO >>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme > selected >>> 2010-01-06 17:23:31,453 [Thread-22] INFO jp.sf.fess.helper.WebIndexHelper - [EXEC TIME] > crawling >>> time: 89219ms >>> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document > boost >>> (100.0). >>> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the > document. >>> The number of a document cache is 7. >>> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>> added document is 7. >>> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename2.log >>> 2010-01-06 17:39:54,218 [http-8080-3] INFO >>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme > selected >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > ---------- > Shibata, Masayuki > Manager, Software Development > Shimadzu Corporation > Analytical Measuring Instruments Division > Research & Development Department > Telephone: 075-823-1441 Japan > Facsimile: 075-823-1365 Japan > E-mail: mshibata @ shimadzu.co.jp > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Thu Jan 7 16:04:28 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Thu, 07 Jan 2010 16:04:28 +0900 Subject: [fess-user 81] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4uLg==?= In-Reply-To: References: Message-ID: <201001070704.AA12175@ea8055.shimadzu.co.jp> Core2 Duo E8500 3.16GHz 2GB RAM Windows Xp マシンです。 タスクマネージャで見ると java.exe のメモリ使用量は 650,000K 確保された仮想メモリサイズは 672,000K ほどです。 上記はクロール中ですので、起動直後だとそれぞれ 127,200K、 171,600K ほどです。このとき物理メモリの空きは 1GB ほどありま す。 >菅谷です。 > >試していただきありがとうございます。 > >ClientAbortException に関しては、おそらく管理画面を >表示していて、読み込みを終了前に次のリクエストが >発生してしまったため、発生したものと思われます。 >(リロードを連続で呼ぶとそれが出たりすると思います) >無視してしまって問題ないので、これを拾わないように >します。 > >ですので、その Exception はクロール処理に影響は >ない感じですが、GC でないとすると、Solr のドキュメントも >秒レベルの時間がかかることから、マシンスペック的に >それくらいの可能性も考えられます。クロール処理は >そこそこメモリーを使うので(条件によりますが観測して >いる感じですと、200m〜300mとか)、これらがスワップに >飛ばされたりすると遅くなると思います。ということも >あるのですが、マシンスペック的にはいかがでしょうか? > >shinsuke > > >2010年1月7日14:59 Masayuki Shibata : >> 柴田@亀岡市です。 >> >> メモリ確保してやってみてますが、あまり速くはなっていないようです。 >> >> 以下のログですと 2010-01-07 13:47:23,578、2010-01-07 14:03:01,921 >> の間 16 分空いてます。 >> >> その後今 (14:55) までずっと応答がないのでログを開いて見たら、例外 >> が出ておりましたので以下に貼り付けておきます。 >> >> 16 分ですと、以前の 1 時間とか 40 分とかと比較して速いのか遅いの >> かわからないのですが、その後の >> Indexing http://hostname/svn/pjname/.../.* >> 行が登場する前にエラーが出てしまいましたし、現時点で 50 分以上経過 >> していますので、ここでいったん止めます。 >> >> >> 2010-01-07 13:47:23,578 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://hostname/svn/pjname/.../filename5.log >> 2010-01-07 13:53:52,750 [http-8080-2] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document boost >> (100.0). >> 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the document. >> The number of a document cache is 8. >> 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >> added document is 8. >> 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://hostname/svn/pjname/.../filename3.log >> 2010-01-07 14:06:02,453 [http-8080-2] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> 2010-01-07 14:23:27,500 [http-8080-2] INFO >> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected >> 2010-01-07 14:25:12,750 [http-8080-2] ERROR >> jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor - System error occured. >> org.seasar.framework.exception.IORuntimeException: [ESSR0040]IO例外が発生しました。理由は >> ClientAbortException: java.net.SocketException: Connection reset by peer: socket write error >> at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:98) >> at org.seasar.struts.util.ResponseUtil.download(ResponseUtil.java:93) >> at jp.sf.fess.action.admin.LogAction.download(LogAction.java:82) >> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.$$download >> $$invokeSuperMethod$$(LogAction$$EnhancedByS2AOP$$818805.java) >> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation >> $$download0.proceed(MethodInvocationClassGenerator.java) >> at org.seasar.framework.aop.interceptors.ThrowsInterceptor.invoke >> (ThrowsInterceptor.java:79) >> at jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor.invoke >> (FessActionMessagesThrowsInterceptor.java:36) >> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation >> $$download0.proceed(MethodInvocationClassGenerator.java) >> at org.seasar.framework.aop.interceptors.TraceInterceptor.invoke >> (TraceInterceptor.java:56) >> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation >> $$download0.proceed(MethodInvocationClassGenerator.java) >> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.download(LogAction >> $$EnhancedByS2AOP$$818805.java) >> at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) >> at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) >> at sun.reflect.DelegatingMethodAccessorImpl.invoke (DelegatingMethodAccessorImpl.java:25) >> at java.lang.reflect.Method.invoke(Method.java:597) >> at org.seasar.framework.util.MethodUtil.invoke(MethodUtil.java:96) >> at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:139) >> at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:87) >> at org.apache.struts.action.RequestProcessor.processActionPerform >> (RequestProcessor.java:431) >> at org.seasar.struts.action.S2RequestProcessor.process(S2RequestProcessor.java:132) >> at org.apache.struts.action.ActionServlet.process(ActionServlet.java:1196) >> at org.apache.struts.action.ActionServlet.doGet(ActionServlet.java:414) >> at javax.servlet.http.HttpServlet.service(HttpServlet.java:617) >> at javax.servlet.http.HttpServlet.service(HttpServlet.java:717) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:290) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter >> (HotdeployFilter.java:71) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.seasar.framework.container.filter.S2ContainerFilter.doFilter >> (S2ContainerFilter.java:79) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) >> at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.apache.catalina.core.ApplicationDispatcher.invoke (ApplicationDispatcher.java:646) >> at org.apache.catalina.core.ApplicationDispatcher.processRequest >> (ApplicationDispatcher.java:436) >> at org.apache.catalina.core.ApplicationDispatcher.doForward >> (ApplicationDispatcher.java:374) >> at org.apache.catalina.core.ApplicationDispatcher.forward (ApplicationDispatcher.java:302) >> at org.seasar.struts.filter.RoutingFilter.forward(RoutingFilter.java:219) >> at org.seasar.struts.filter.RoutingFilter.doFilter(RoutingFilter.java:99) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at jp.sf.fess.filter.AuthenticationFilter.doFilter(AuthenticationFilter.java:98) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter >> (HotdeployFilter.java:71) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.seasar.framework.container.filter.S2ContainerFilter.doFilter >> (S2ContainerFilter.java:79) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) >> at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:233) >> at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:191) >> at org.apache.catalina.authenticator.AuthenticatorBase.invoke (AuthenticatorBase.java:433) >> at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:128) >> at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:102) >> at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:109) >> at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:293) >> at org.apache.coyote.http11.Http11Processor.process(Http11Processor.java:849) >> at org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.process >> (Http11Protocol.java:583) >> at org.apache.tomcat.util.net.JIoEndpoint$Worker.run(JIoEndpoint.java:454) >> at java.lang.Thread.run(Thread.java:619) >> Caused by: ClientAbortException: java.net.SocketException: Connection reset by peer: socket >> write error >> at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:358) >> at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:325) >> at org.apache.catalina.connector.OutputBuffer.writeBytes(OutputBuffer.java:381) >> at org.apache.catalina.connector.OutputBuffer.write(OutputBuffer.java:370) >> at org.apache.catalina.connector.CoyoteOutputStream.write(CoyoteOutputStream.java:89) >> at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:95) >> ... 67 more >> Caused by: java.net.SocketException: Connection reset by peer: socket write error >> at java.net.SocketOutputStream.socketWrite0(Native Method) >> at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:92) >> at java.net.SocketOutputStream.write(SocketOutputStream.java:136) >> at org.apache.coyote.http11.InternalOutputBuffer.realWriteBytes >> (InternalOutputBuffer.java:740) >> at org.apache.tomcat.util.buf.ByteChunk.flushBuffer(ByteChunk.java:434) >> at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:349) >> at org.apache.coyote.http11.InternalOutputBuffer$OutputStreamOutputBuffer.doWrite >> (InternalOutputBuffer.java:764) >> at org.apache.coyote.http11.filters.ChunkedOutputFilter.doWrite >> (ChunkedOutputFilter.java:126) >> at org.apache.coyote.http11.InternalOutputBuffer.doWrite(InternalOutputBuffer.java:573) >> at org.apache.coyote.Response.doWrite(Response.java:560) >> at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:353) >> ... 72 more >> 2010-01-07 14:25:12,750 [http-8080-3] ERROR >> jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor - System error occured. >> org.seasar.framework.exception.IORuntimeException: [ESSR0040]IO例外が発生しました。理由は >> ClientAbortException: java.net.SocketException: Connection reset by peer: socket write error >> at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:98) >> at org.seasar.struts.util.ResponseUtil.download(ResponseUtil.java:93) >> at jp.sf.fess.action.admin.LogAction.download(LogAction.java:82) >> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.$$download >> $$invokeSuperMethod$$(LogAction$$EnhancedByS2AOP$$818805.java) >> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation >> $$download0.proceed(MethodInvocationClassGenerator.java) >> at org.seasar.framework.aop.interceptors.ThrowsInterceptor.invoke >> (ThrowsInterceptor.java:79) >> at jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor.invoke >> (FessActionMessagesThrowsInterceptor.java:36) >> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation >> $$download0.proceed(MethodInvocationClassGenerator.java) >> at org.seasar.framework.aop.interceptors.TraceInterceptor.invoke >> (TraceInterceptor.java:56) >> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation >> $$download0.proceed(MethodInvocationClassGenerator.java) >> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.download(LogAction >> $$EnhancedByS2AOP$$818805.java) >> at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) >> at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) >> at sun.reflect.DelegatingMethodAccessorImpl.invoke (DelegatingMethodAccessorImpl.java:25) >> at java.lang.reflect.Method.invoke(Method.java:597) >> at org.seasar.framework.util.MethodUtil.invoke(MethodUtil.java:96) >> at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:139) >> at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:87) >> at org.apache.struts.action.RequestProcessor.processActionPerform >> (RequestProcessor.java:431) >> at org.seasar.struts.action.S2RequestProcessor.process(S2RequestProcessor.java:132) >> at org.apache.struts.action.ActionServlet.process(ActionServlet.java:1196) >> at org.apache.struts.action.ActionServlet.doGet(ActionServlet.java:414) >> at javax.servlet.http.HttpServlet.service(HttpServlet.java:617) >> at javax.servlet.http.HttpServlet.service(HttpServlet.java:717) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:290) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter >> (HotdeployFilter.java:71) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.seasar.framework.container.filter.S2ContainerFilter.doFilter >> (S2ContainerFilter.java:79) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) >> at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.apache.catalina.core.ApplicationDispatcher.invoke (ApplicationDispatcher.java:646) >> at org.apache.catalina.core.ApplicationDispatcher.processRequest >> (ApplicationDispatcher.java:436) >> at org.apache.catalina.core.ApplicationDispatcher.doForward >> (ApplicationDispatcher.java:374) >> at org.apache.catalina.core.ApplicationDispatcher.forward (ApplicationDispatcher.java:302) >> at org.seasar.struts.filter.RoutingFilter.forward(RoutingFilter.java:219) >> at org.seasar.struts.filter.RoutingFilter.doFilter(RoutingFilter.java:99) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at jp.sf.fess.filter.AuthenticationFilter.doFilter(AuthenticationFilter.java:98) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter >> (HotdeployFilter.java:71) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.seasar.framework.container.filter.S2ContainerFilter.doFilter >> (S2ContainerFilter.java:79) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) >> at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) >> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >> (ApplicationFilterChain.java:235) >> at org.apache.catalina.core.ApplicationFilterChain.doFilter >> (ApplicationFilterChain.java:206) >> at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:233) >> at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:191) >> at org.apache.catalina.authenticator.AuthenticatorBase.invoke (AuthenticatorBase.java:433) >> at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:128) >> at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:102) >> at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:109) >> at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:293) >> at org.apache.coyote.http11.Http11Processor.process(Http11Processor.java:849) >> at org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.process >> (Http11Protocol.java:583) >> at org.apache.tomcat.util.net.JIoEndpoint$Worker.run(JIoEndpoint.java:454) >> at java.lang.Thread.run(Thread.java:619) >> Caused by: ClientAbortException: java.net.SocketException: Connection reset by peer: socket >> write error >> at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:358) >> at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:325) >> at org.apache.catalina.connector.OutputBuffer.writeBytes(OutputBuffer.java:381) >> at org.apache.catalina.connector.OutputBuffer.write(OutputBuffer.java:370) >> at org.apache.catalina.connector.CoyoteOutputStream.write(CoyoteOutputStream.java:89) >> at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:95) >> ... 67 more >> Caused by: java.net.SocketException: Connection reset by peer: socket write error >> at java.net.SocketOutputStream.socketWrite0(Native Method) >> at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:92) >> at java.net.SocketOutputStream.write(SocketOutputStream.java:136) >> at org.apache.coyote.http11.InternalOutputBuffer.realWriteBytes >> (InternalOutputBuffer.java:740) >> at org.apache.tomcat.util.buf.ByteChunk.flushBuffer(ByteChunk.java:434) >> at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:349) >> at org.apache.coyote.http11.InternalOutputBuffer$OutputStreamOutputBuffer.doWrite >> (InternalOutputBuffer.java:764) >> at org.apache.coyote.http11.filters.ChunkedOutputFilter.doWrite >> (ChunkedOutputFilter.java:126) >> at org.apache.coyote.http11.InternalOutputBuffer.doWrite(InternalOutputBuffer.java:573) >> at org.apache.coyote.Response.doWrite(Response.java:560) >> at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:353) >> ... 72 more >> >>>菅谷です。 >>> >>>調査していただきありがとうございます。 >>> >>>私もここのところ、厳しめのテストをいろいろと >>>実行していますが、1M近くサイズがあることと >>>IndexUpdater が普通の処理で止まっている >>>ことを考えると、GC で時間がかかっている >>>ことも考えられます。ヒープがいっぱいになると、 >>>GC で確保しようとして、IndexUpdater とかで >>>停止しているような状態を観測したことがあります。 >>>ですので、bin/setenv.[bat|sh] の -Xmx512m を >>>-Xmx1024m とか変更すると改善するかも >>>しれません。 >>> >>>> Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999 >>> >>>上記については、POI が出しているようなので >>>何とかできるものなのか、時間があるときに >>>見てみます。 >>> >>>shinsuke >>> >>> >>>2010年1月6日17:55 Masayuki Shibata : >>>> 柴田@亀岡市です。 >>>> >>>> さらに訂正です。バタバタしてスミマセン。 >>>> >>>>>ウソ書いてしまいました。ちゃんと終わっていないようです。 >>>> ... >>>>>...と、この種のファイルに出会うと「[EXEC TIME] crawling time: xxxxxms」が >>>>>出ます。 >>>>> >>>>>document cache が 11 に到達する前にクロールを止めてしまっているようで、 >>>>>その後の... >>>>>[EXEC TIME] index update time: xxxxxms >>>>>[EXEC TIME] index optimize time: xxxxxms >>>>>...が登場せず、クローラープロセスが終了しません。 >>>> >>>> 終了していないのではなく、今まで同様にファイルのインデックス作るのが >>>> 超遅くて、次のログ行が出てくるまでに時間間隔があいていただけでした。 >>>> >>>> 以下、そのときのログです。 >>>> >>>> 問題のファイルは 拡張子 log のもので、同じフォルダ配下に 拡張子 c の >>>> ものも少しあり、それはすぐ終わっていますが、log には時間を要している >>>> という図式です。 >>>> >>>> ... >>>> 2010-01-06 17:23:02,234 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Processing >> documents >>>> in IndexUpdater queue. >>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of a >>>> crawled document is 12. The processing size is 10. The execution time is 453ms. >>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../ >>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document >> boost >>>> (100.0). >>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the >> document. >>>> The number of a document cache is 1. >>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>>> added document is 1. >>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename1.c >>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document >> boost >>>> (100.0). >>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the >> document. >>>> The number of a document cache is 2. >>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>>> added document is 2. >>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename2.c >>>> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document >> boost >>>> (100.0). >>>> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the >> document. >>>> The number of a document cache is 3. >>>> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>>> added document is 3. >>>> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename3.c >>>> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document >> boost >>>> (100.0). >>>> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the >> document. >>>> The number of a document cache is 4. >>>> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>>> added document is 4. >>>> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename4.c >>>> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document >> boost >>>> (100.0). >>>> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the >> document. >>>> The number of a document cache is 5. >>>> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>>> added document is 5. >>>> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename5.c >>>> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document >> boost >>>> (100.0). >>>> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the >> document. >>>> The number of a document cache is 6. >>>> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>>> added document is 6. >>>> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename1.log >>>> 2010-01-06 17:23:21,375 [http-8080-3] INFO >>>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme >> selected >>>> 2010-01-06 17:23:31,453 [Thread-22] INFO jp.sf.fess.helper.WebIndexHelper - [EXEC TIME] >> crawling >>>> time: 89219ms >>>> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document >> boost >>>> (100.0). >>>> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the >> document. >>>> The number of a document cache is 7. >>>> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>>> added document is 7. >>>> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename2.log >>>> 2010-01-06 17:39:54,218 [http-8080-3] INFO >>>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme >> selected >>>> >>>> _______________________________________________ >>>> Fess-user mailing list >>>> Fess-user @ lists.sourceforge.jp >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>>_______________________________________________ >>>Fess-user mailing list >>>Fess-user @ lists.sourceforge.jp >>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >> ---------- >> Shibata, Masayuki >> Manager, Software Development >> Shimadzu Corporation >> Analytical Measuring Instruments Division >> Research & Development Department >> Telephone: 075-823-1441 Japan >> Facsimile: 075-823-1365 Japan >> E-mail: mshibata @ shimadzu.co.jp >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > ---------- Shibata, Masayuki Manager, Software Development Shimadzu Corporation Analytical Measuring Instruments Division Research & Development Department Telephone: 075-823-1441 Japan Facsimile: 075-823-1365 Japan E-mail: mshibata @ shimadzu.co.jp From shinsuke @ yahoo.co.jp Thu Jan 7 16:43:27 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Thu, 7 Jan 2010 16:43:27 +0900 Subject: [fess-user 82] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4u?= =?iso-2022-jp?b?Lg==?= In-Reply-To: <201001070704.AA12175@ea8055.shimadzu.co.jp> References: <201001070704.AA12175@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 情報をありがとうございます。 > Core2 Duo E8500 3.16GHz 2GB RAM > Windows Xp マシンです。 スペック的には全く問題ないと思います! (すいません、スペック的な問題ではないと思います) > タスクマネージャで見ると java.exe のメモリ使用量は 650,000K > 確保された仮想メモリサイズは 672,000K ほどです。 -Xmx512m では少ないのかもしれません。 setenv.bat に -verbose:gc を追加すると GC による 経過時間が確認できるかと思います。 こちらでも IndexUpdater で改善できるかのや Shift_JIS の大きなテキストがあるとどうなるのかを 確認してみたいと思います。 お手数をおかけしてすいません。 shinsuke 2010年1月7日16:04 Masayuki Shibata : > Core2 Duo E8500 3.16GHz 2GB RAM > Windows Xp マシンです。 > > タスクマネージャで見ると java.exe のメモリ使用量は 650,000K > 確保された仮想メモリサイズは 672,000K ほどです。 > > 上記はクロール中ですので、起動直後だとそれぞれ 127,200K、 > 171,600K ほどです。このとき物理メモリの空きは 1GB ほどありま > す。 > > >>菅谷です。 >> >>試していただきありがとうございます。 >> >>ClientAbortException に関しては、おそらく管理画面を >>表示していて、読み込みを終了前に次のリクエストが >>発生してしまったため、発生したものと思われます。 >>(リロードを連続で呼ぶとそれが出たりすると思います) >>無視してしまって問題ないので、これを拾わないように >>します。 >> >>ですので、その Exception はクロール処理に影響は >>ない感じですが、GC でないとすると、Solr のドキュメントも >>秒レベルの時間がかかることから、マシンスペック的に >>それくらいの可能性も考えられます。クロール処理は >>そこそこメモリーを使うので(条件によりますが観測して >>いる感じですと、200m〜300mとか)、これらがスワップに >>飛ばされたりすると遅くなると思います。ということも >>あるのですが、マシンスペック的にはいかがでしょうか? >> >>shinsuke >> >> >>2010年1月7日14:59 Masayuki Shibata : >>> 柴田@亀岡市です。 >>> >>> メモリ確保してやってみてますが、あまり速くはなっていないようです。 >>> >>> 以下のログですと 2010-01-07 13:47:23,578、2010-01-07 14:03:01,921 >>> の間 16 分空いてます。 >>> >>> その後今 (14:55) までずっと応答がないのでログを開いて見たら、例外 >>> が出ておりましたので以下に貼り付けておきます。 >>> >>> 16 分ですと、以前の 1 時間とか 40 分とかと比較して速いのか遅いの >>> かわからないのですが、その後の >>> Indexing http://hostname/svn/pjname/.../.* >>> 行が登場する前にエラーが出てしまいましたし、現時点で 50 分以上経過 >>> していますので、ここでいったん止めます。 >>> >>> >>> 2010-01-07 13:47:23,578 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://hostname/svn/pjname/.../filename5.log >>> 2010-01-07 13:53:52,750 [http-8080-2] INFO >>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme > selected >>> 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document > boost >>> (100.0). >>> 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the > document. >>> The number of a document cache is 8. >>> 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>> added document is 8. >>> 2010-01-07 14:03:01,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://hostname/svn/pjname/.../filename3.log >>> 2010-01-07 14:06:02,453 [http-8080-2] INFO >>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme > selected >>> 2010-01-07 14:23:27,500 [http-8080-2] INFO >>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme > selected >>> 2010-01-07 14:25:12,750 [http-8080-2] ERROR >>> jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor - System error occured. >>> org.seasar.framework.exception.IORuntimeException: [ESSR0040]IO例外が発生しました。理由は >>> ClientAbortException: java.net.SocketException: Connection reset by peer: socket write error >>> at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:98) >>> at org.seasar.struts.util.ResponseUtil.download(ResponseUtil.java:93) >>> at jp.sf.fess.action.admin.LogAction.download(LogAction.java:82) >>> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.$$download >>> $$invokeSuperMethod$$(LogAction$$EnhancedByS2AOP$$818805.java) >>> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation >>> $$download0.proceed(MethodInvocationClassGenerator.java) >>> at org.seasar.framework.aop.interceptors.ThrowsInterceptor.invoke >>> (ThrowsInterceptor.java:79) >>> at jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor.invoke >>> (FessActionMessagesThrowsInterceptor.java:36) >>> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation >>> $$download0.proceed(MethodInvocationClassGenerator.java) >>> at org.seasar.framework.aop.interceptors.TraceInterceptor.invoke >>> (TraceInterceptor.java:56) >>> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation >>> $$download0.proceed(MethodInvocationClassGenerator.java) >>> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.download(LogAction >>> $$EnhancedByS2AOP$$818805.java) >>> at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) >>> at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) >>> at sun.reflect.DelegatingMethodAccessorImpl.invoke > (DelegatingMethodAccessorImpl.java:25) >>> at java.lang.reflect.Method.invoke(Method.java:597) >>> at org.seasar.framework.util.MethodUtil.invoke(MethodUtil.java:96) >>> at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:139) >>> at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:87) >>> at org.apache.struts.action.RequestProcessor.processActionPerform >>> (RequestProcessor.java:431) >>> at org.seasar.struts.action.S2RequestProcessor.process(S2RequestProcessor.java:132) >>> at org.apache.struts.action.ActionServlet.process(ActionServlet.java:1196) >>> at org.apache.struts.action.ActionServlet.doGet(ActionServlet.java:414) >>> at javax.servlet.http.HttpServlet.service(HttpServlet.java:617) >>> at javax.servlet.http.HttpServlet.service(HttpServlet.java:717) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:290) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter >>> (HotdeployFilter.java:71) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.seasar.framework.container.filter.S2ContainerFilter.doFilter >>> (S2ContainerFilter.java:79) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) >>> at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.apache.catalina.core.ApplicationDispatcher.invoke > (ApplicationDispatcher.java:646) >>> at org.apache.catalina.core.ApplicationDispatcher.processRequest >>> (ApplicationDispatcher.java:436) >>> at org.apache.catalina.core.ApplicationDispatcher.doForward >>> (ApplicationDispatcher.java:374) >>> at org.apache.catalina.core.ApplicationDispatcher.forward > (ApplicationDispatcher.java:302) >>> at org.seasar.struts.filter.RoutingFilter.forward(RoutingFilter.java:219) >>> at org.seasar.struts.filter.RoutingFilter.doFilter(RoutingFilter.java:99) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at jp.sf.fess.filter.AuthenticationFilter.doFilter(AuthenticationFilter.java:98) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter >>> (HotdeployFilter.java:71) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.seasar.framework.container.filter.S2ContainerFilter.doFilter >>> (S2ContainerFilter.java:79) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) >>> at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:233) >>> at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:191) >>> at org.apache.catalina.authenticator.AuthenticatorBase.invoke > (AuthenticatorBase.java:433) >>> at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:128) >>> at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:102) >>> at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:109) >>> at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:293) >>> at org.apache.coyote.http11.Http11Processor.process(Http11Processor.java:849) >>> at org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.process >>> (Http11Protocol.java:583) >>> at org.apache.tomcat.util.net.JIoEndpoint$Worker.run(JIoEndpoint.java:454) >>> at java.lang.Thread.run(Thread.java:619) >>> Caused by: ClientAbortException: java.net.SocketException: Connection reset by peer: socket >>> write error >>> at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:358) >>> at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:325) >>> at org.apache.catalina.connector.OutputBuffer.writeBytes(OutputBuffer.java:381) >>> at org.apache.catalina.connector.OutputBuffer.write(OutputBuffer.java:370) >>> at org.apache.catalina.connector.CoyoteOutputStream.write(CoyoteOutputStream.java:89) >>> at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:95) >>> ... 67 more >>> Caused by: java.net.SocketException: Connection reset by peer: socket write error >>> at java.net.SocketOutputStream.socketWrite0(Native Method) >>> at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:92) >>> at java.net.SocketOutputStream.write(SocketOutputStream.java:136) >>> at org.apache.coyote.http11.InternalOutputBuffer.realWriteBytes >>> (InternalOutputBuffer.java:740) >>> at org.apache.tomcat.util.buf.ByteChunk.flushBuffer(ByteChunk.java:434) >>> at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:349) >>> at org.apache.coyote.http11.InternalOutputBuffer$OutputStreamOutputBuffer.doWrite >>> (InternalOutputBuffer.java:764) >>> at org.apache.coyote.http11.filters.ChunkedOutputFilter.doWrite >>> (ChunkedOutputFilter.java:126) >>> at org.apache.coyote.http11.InternalOutputBuffer.doWrite(InternalOutputBuffer.java:573) >>> at org.apache.coyote.Response.doWrite(Response.java:560) >>> at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:353) >>> ... 72 more >>> 2010-01-07 14:25:12,750 [http-8080-3] ERROR >>> jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor - System error occured. >>> org.seasar.framework.exception.IORuntimeException: [ESSR0040]IO例外が発生しました。理由は >>> ClientAbortException: java.net.SocketException: Connection reset by peer: socket write error >>> at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:98) >>> at org.seasar.struts.util.ResponseUtil.download(ResponseUtil.java:93) >>> at jp.sf.fess.action.admin.LogAction.download(LogAction.java:82) >>> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.$$download >>> $$invokeSuperMethod$$(LogAction$$EnhancedByS2AOP$$818805.java) >>> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation >>> $$download0.proceed(MethodInvocationClassGenerator.java) >>> at org.seasar.framework.aop.interceptors.ThrowsInterceptor.invoke >>> (ThrowsInterceptor.java:79) >>> at jp.sf.fess.interceptor.FessActionMessagesThrowsInterceptor.invoke >>> (FessActionMessagesThrowsInterceptor.java:36) >>> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation >>> $$download0.proceed(MethodInvocationClassGenerator.java) >>> at org.seasar.framework.aop.interceptors.TraceInterceptor.invoke >>> (TraceInterceptor.java:56) >>> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805$$MethodInvocation >>> $$download0.proceed(MethodInvocationClassGenerator.java) >>> at jp.sf.fess.action.admin.LogAction$$EnhancedByS2AOP$$818805.download(LogAction >>> $$EnhancedByS2AOP$$818805.java) >>> at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) >>> at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) >>> at sun.reflect.DelegatingMethodAccessorImpl.invoke > (DelegatingMethodAccessorImpl.java:25) >>> at java.lang.reflect.Method.invoke(Method.java:597) >>> at org.seasar.framework.util.MethodUtil.invoke(MethodUtil.java:96) >>> at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:139) >>> at org.seasar.struts.action.ActionWrapper.execute(ActionWrapper.java:87) >>> at org.apache.struts.action.RequestProcessor.processActionPerform >>> (RequestProcessor.java:431) >>> at org.seasar.struts.action.S2RequestProcessor.process(S2RequestProcessor.java:132) >>> at org.apache.struts.action.ActionServlet.process(ActionServlet.java:1196) >>> at org.apache.struts.action.ActionServlet.doGet(ActionServlet.java:414) >>> at javax.servlet.http.HttpServlet.service(HttpServlet.java:617) >>> at javax.servlet.http.HttpServlet.service(HttpServlet.java:717) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:290) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter >>> (HotdeployFilter.java:71) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.seasar.framework.container.filter.S2ContainerFilter.doFilter >>> (S2ContainerFilter.java:79) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) >>> at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.apache.catalina.core.ApplicationDispatcher.invoke > (ApplicationDispatcher.java:646) >>> at org.apache.catalina.core.ApplicationDispatcher.processRequest >>> (ApplicationDispatcher.java:436) >>> at org.apache.catalina.core.ApplicationDispatcher.doForward >>> (ApplicationDispatcher.java:374) >>> at org.apache.catalina.core.ApplicationDispatcher.forward > (ApplicationDispatcher.java:302) >>> at org.seasar.struts.filter.RoutingFilter.forward(RoutingFilter.java:219) >>> at org.seasar.struts.filter.RoutingFilter.doFilter(RoutingFilter.java:99) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at jp.sf.fess.filter.AuthenticationFilter.doFilter(AuthenticationFilter.java:98) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.seasar.framework.container.hotdeploy.HotdeployFilter.doFilter >>> (HotdeployFilter.java:71) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.seasar.framework.container.filter.S2ContainerFilter.doFilter >>> (S2ContainerFilter.java:79) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.mobylet.core.http.MobyletFilter.processFilter(MobyletFilter.java:103) >>> at org.mobylet.core.http.MobyletFilter.doFilter(MobyletFilter.java:67) >>> at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter >>> (ApplicationFilterChain.java:235) >>> at org.apache.catalina.core.ApplicationFilterChain.doFilter >>> (ApplicationFilterChain.java:206) >>> at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:233) >>> at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:191) >>> at org.apache.catalina.authenticator.AuthenticatorBase.invoke > (AuthenticatorBase.java:433) >>> at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:128) >>> at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:102) >>> at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:109) >>> at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:293) >>> at org.apache.coyote.http11.Http11Processor.process(Http11Processor.java:849) >>> at org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.process >>> (Http11Protocol.java:583) >>> at org.apache.tomcat.util.net.JIoEndpoint$Worker.run(JIoEndpoint.java:454) >>> at java.lang.Thread.run(Thread.java:619) >>> Caused by: ClientAbortException: java.net.SocketException: Connection reset by peer: socket >>> write error >>> at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:358) >>> at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:325) >>> at org.apache.catalina.connector.OutputBuffer.writeBytes(OutputBuffer.java:381) >>> at org.apache.catalina.connector.OutputBuffer.write(OutputBuffer.java:370) >>> at org.apache.catalina.connector.CoyoteOutputStream.write(CoyoteOutputStream.java:89) >>> at org.seasar.framework.util.InputStreamUtil.copy(InputStreamUtil.java:95) >>> ... 67 more >>> Caused by: java.net.SocketException: Connection reset by peer: socket write error >>> at java.net.SocketOutputStream.socketWrite0(Native Method) >>> at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:92) >>> at java.net.SocketOutputStream.write(SocketOutputStream.java:136) >>> at org.apache.coyote.http11.InternalOutputBuffer.realWriteBytes >>> (InternalOutputBuffer.java:740) >>> at org.apache.tomcat.util.buf.ByteChunk.flushBuffer(ByteChunk.java:434) >>> at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:349) >>> at org.apache.coyote.http11.InternalOutputBuffer$OutputStreamOutputBuffer.doWrite >>> (InternalOutputBuffer.java:764) >>> at org.apache.coyote.http11.filters.ChunkedOutputFilter.doWrite >>> (ChunkedOutputFilter.java:126) >>> at org.apache.coyote.http11.InternalOutputBuffer.doWrite(InternalOutputBuffer.java:573) >>> at org.apache.coyote.Response.doWrite(Response.java:560) >>> at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:353) >>> ... 72 more >>> >>>>菅谷です。 >>>> >>>>調査していただきありがとうございます。 >>>> >>>>私もここのところ、厳しめのテストをいろいろと >>>>実行していますが、1M近くサイズがあることと >>>>IndexUpdater が普通の処理で止まっている >>>>ことを考えると、GC で時間がかかっている >>>>ことも考えられます。ヒープがいっぱいになると、 >>>>GC で確保しようとして、IndexUpdater とかで >>>>停止しているような状態を観測したことがあります。 >>>>ですので、bin/setenv.[bat|sh] の -Xmx512m を >>>>-Xmx1024m とか変更すると改善するかも >>>>しれません。 >>>> >>>>> Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999 >>>> >>>>上記については、POI が出しているようなので >>>>何とかできるものなのか、時間があるときに >>>>見てみます。 >>>> >>>>shinsuke >>>> >>>> >>>>2010年1月6日17:55 Masayuki Shibata : >>>>> 柴田@亀岡市です。 >>>>> >>>>> さらに訂正です。バタバタしてスミマセン。 >>>>> >>>>>>ウソ書いてしまいました。ちゃんと終わっていないようです。 >>>>> ... >>>>>>...と、この種のファイルに出会うと「[EXEC TIME] crawling time: xxxxxms」が >>>>>>出ます。 >>>>>> >>>>>>document cache が 11 に到達する前にクロールを止めてしまっているようで、 >>>>>>その後の... >>>>>>[EXEC TIME] index update time: xxxxxms >>>>>>[EXEC TIME] index optimize time: xxxxxms >>>>>>...が登場せず、クローラープロセスが終了しません。 >>>>> >>>>> 終了していないのではなく、今まで同様にファイルのインデックス作るのが >>>>> 超遅くて、次のログ行が出てくるまでに時間間隔があいていただけでした。 >>>>> >>>>> 以下、そのときのログです。 >>>>> >>>>> 問題のファイルは 拡張子 log のもので、同じフォルダ配下に 拡張子 c の >>>>> ものも少しあり、それはすぐ終わっていますが、log には時間を要している >>>>> という図式です。 >>>>> >>>>> ... >>>>> 2010-01-06 17:23:02,234 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Processing >>> documents >>>>> in IndexUpdater queue. >>>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of a >>>>> crawled document is 12. The processing size is 10. The execution time is 453ms. >>>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../ >>>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document >>> boost >>>>> (100.0). >>>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the >>> document. >>>>> The number of a document cache is 1. >>>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>>>> added document is 1. >>>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename1.c >>>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document >>> boost >>>>> (100.0). >>>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the >>> document. >>>>> The number of a document cache is 2. >>>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>>>> added document is 2. >>>>> 2010-01-06 17:23:02,687 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename2.c >>>>> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document >>> boost >>>>> (100.0). >>>>> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the >>> document. >>>>> The number of a document cache is 3. >>>>> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>>>> added document is 3. >>>>> 2010-01-06 17:23:02,921 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename3.c >>>>> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document >>> boost >>>>> (100.0). >>>>> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the >>> document. >>>>> The number of a document cache is 4. >>>>> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>>>> added document is 4. >>>>> 2010-01-06 17:23:03,125 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename4.c >>>>> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document >>> boost >>>>> (100.0). >>>>> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the >>> document. >>>>> The number of a document cache is 5. >>>>> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>>>> added document is 5. >>>>> 2010-01-06 17:23:03,375 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename5.c >>>>> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document >>> boost >>>>> (100.0). >>>>> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the >>> document. >>>>> The number of a document cache is 6. >>>>> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>>>> added document is 6. >>>>> 2010-01-06 17:23:03,609 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename1.log >>>>> 2010-01-06 17:23:21,375 [http-8080-3] INFO >>>>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme >>> selected >>>>> 2010-01-06 17:23:31,453 [Thread-22] INFO jp.sf.fess.helper.WebIndexHelper - [EXEC TIME] >>> crawling >>>>> time: 89219ms >>>>> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Set a document >>> boost >>>>> (100.0). >>>>> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Added the >>> document. >>>>> The number of a document cache is 7. >>>>> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - The number of an >>>>> added document is 7. >>>>> 2010-01-06 17:36:02,218 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://.../filename2.log >>>>> 2010-01-06 17:39:54,218 [http-8080-3] INFO >>>>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme >>> selected >>>>> >>>>> _______________________________________________ >>>>> Fess-user mailing list >>>>> Fess-user @ lists.sourceforge.jp >>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >>>> >>>>_______________________________________________ >>>>Fess-user mailing list >>>>Fess-user @ lists.sourceforge.jp >>>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>> ---------- >>> Shibata, Masayuki >>> Manager, Software Development >>> Shimadzu Corporation >>> Analytical Measuring Instruments Division >>> Research & Development Department >>> Telephone: 075-823-1441 Japan >>> Facsimile: 075-823-1365 Japan >>> E-mail: mshibata @ shimadzu.co.jp >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > ---------- > Shibata, Masayuki > Manager, Software Development > Shimadzu Corporation > Analytical Measuring Instruments Division > Research & Development Department > Telephone: 075-823-1441 Japan > Facsimile: 075-823-1365 Japan > E-mail: mshibata @ shimadzu.co.jp > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Thu Jan 7 18:22:25 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Thu, 07 Jan 2010 18:22:25 +0900 Subject: [fess-user 83] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4uLg==?= In-Reply-To: References: Message-ID: <201001070922.AA12176@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 >-Xmx512m では少ないのかもしれません。 少し前のご提案にしたがって -Xmx1024m にしてテストしています ので、もう少し増やしてみましょうか? それとも GC かどうか確定させるため、メモリについてはいじらず に「setenv.bat に -verbose:gc を追加する」をやってみましょう か? 両方一度に変更すると、原因が見えにくくなるかも知れません。 >>>>>ですので、bin/setenv.[bat|sh] の -Xmx512m を >>>>>-Xmx1024m とか変更すると改善するかも >>>>>しれません。 From shinsuke @ yahoo.co.jp Thu Jan 7 18:35:35 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Thu, 7 Jan 2010 18:35:35 +0900 Subject: [fess-user 84] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4u?= =?iso-2022-jp?b?Lg==?= In-Reply-To: <201001070922.AA12176@ea8055.shimadzu.co.jp> References: <201001070922.AA12176@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 ありがとうございます。 > それとも GC かどうか確定させるため、メモリについてはいじらず > に「setenv.bat に -verbose:gc を追加する」をやってみましょう > か? -Xmx1024m あれば十分かと思うので、 -verbose:gc の状況を見ていただけると 大変助かります。 shinsuke 2010年1月7日18:22 Masayuki Shibata : > 柴田@亀岡市です。 > >>-Xmx512m では少ないのかもしれません。 > > 少し前のご提案にしたがって -Xmx1024m にしてテストしています > ので、もう少し増やしてみましょうか? > > それとも GC かどうか確定させるため、メモリについてはいじらず > に「setenv.bat に -verbose:gc を追加する」をやってみましょう > か? > > 両方一度に変更すると、原因が見えにくくなるかも知れません。 > >>>>>>ですので、bin/setenv.[bat|sh] の -Xmx512m を >>>>>>-Xmx1024m とか変更すると改善するかも >>>>>>しれません。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Thu Jan 7 19:19:58 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Thu, 07 Jan 2010 19:19:58 +0900 Subject: [fess-user 85] =?iso-2022-jp?b?GyRCJTUlJCVIJV4lQyVXJFgkTkJQMX4hKRsoQg==?= Message-ID: <201001071019.AA12179@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 ある Web 型の文書管理サーバーソフトでの話です。 文書ファイルへのリンクは、アイコンボタンの Action として記述されて おり、いわゆる href リンクではないため fess でクロールできていませ ん。 そこでそのサーバーソフトの開発元に何か手はないかとたずねたところ、 「サイトマップ」に対応しているので、それで何とかならないかみたいな 回答がありました。 サイトマップとは... http://www.sitemaps.org/ja/index.php 実際その機能を動かしてみると、指定 URL に sitemapindex.xml と sitemap_0001.xml.gz というファイルが作られていて、前者には後者のポインタ (多分後者が複 数作られるときにインデックス) を含んでおり、後者を展開して得られる XML には... http://hostname/xxx/htdocs/... 2009-04-23T18:33:01+09:00 ...のような文書ファイルへのリンクがズラっと並んで記述されています。 話のやりとりからある種の規格のようなものだと推測されますが、これに 対応できていれば確かにクロールするのに一発で済みそうです。 これについて何かご予定はお持ちでしょうか? ---------- Shibata, Masayuki Manager, Software Development Shimadzu Corporation Analytical Measuring Instruments Division Research & Development Department Telephone: 075-823-1441 Japan Facsimile: 075-823-1365 Japan E-mail: mshibata @ shimadzu.co.jp From mshibata @ shimadzu.co.jp Thu Jan 7 19:51:27 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Thu, 07 Jan 2010 19:51:27 +0900 Subject: [fess-user 86] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4uLg==?= In-Reply-To: References: Message-ID: <201001071051.AA12180@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 画面上かなりのスピードで表示流れていきますが (汗;)。 #流れていくのだし GC 時間も 0.0x sec オーダーのが続いている #という状態です。 どういう状態になったら「GC の影響」と判断できますか? 流れているのが止まるとそう判断できるのでしょうか? ログの Indexing http://... 行で、時間が空いているところを狙って この画面上のその期間複数行を集計 (足す) というのだとちょっとで きなさそうですが... #画面出力がログのような時間属性を持っていないので、どこかにリ #ダイレクトしても無駄に終わりそう。 画面に出てくる内容と速度からすると、どこかにログに残ってそうな 気配もなく... >菅谷です。 > >ありがとうございます。 > >> それとも GC かどうか確定させるため、メモリについてはいじらず >> に「setenv.bat に -verbose:gc を追加する」をやってみましょう >> か? > >-Xmx1024m あれば十分かと思うので、 >-verbose:gc の状況を見ていただけると >大変助かります。 > >shinsuke > > >2010年1月7日18:22 Masayuki Shibata : >> 柴田@亀岡市です。 >> >>>-Xmx512m では少ないのかもしれません。 >> >> 少し前のご提案にしたがって -Xmx1024m にしてテストしています >> ので、もう少し増やしてみましょうか? >> >> それとも GC かどうか確定させるため、メモリについてはいじらず >> に「setenv.bat に -verbose:gc を追加する」をやってみましょう >> か? >> >> 両方一度に変更すると、原因が見えにくくなるかも知れません。 >> >>>>>>>ですので、bin/setenv.[bat|sh] の -Xmx512m を >>>>>>>-Xmx1024m とか変更すると改善するかも >>>>>>>しれません。 >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Thu Jan 7 19:56:19 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Thu, 07 Jan 2010 19:56:19 +0900 Subject: [fess-user 87] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4uLg==?= In-Reply-To: <201001071051.AA12180@ea8055.shimadzu.co.jp> References: <201001071051.AA12180@ea8055.shimadzu.co.jp> Message-ID: <201001071056.AA12181@ea8055.shimadzu.co.jp> 柴田です。実況中継モードです。 今さきほど Indexing http://... ...の行と行の間で 18 分ほどかかっているログが fess.out で確認で きましたが、その間 GC 状況の表示もずっと同じような調子で流れっ ぱなしでした。 >流れているのが止まるとそう判断できるのでしょうか? ...が、もしそうなら「シロ」ということになるのではないかと思いま す。 判断条件が間違っているなら、その旨お知らせください。 >柴田@亀岡市です。 > >画面上かなりのスピードで表示流れていきますが (汗;)。 >#流れていくのだし GC 時間も 0.0x sec オーダーのが続いている >#という状態です。 > >どういう状態になったら「GC の影響」と判断できますか? > >流れているのが止まるとそう判断できるのでしょうか? > >ログの Indexing http://... 行で、時間が空いているところを狙って >この画面上のその期間複数行を集計 (足す) というのだとちょっとで >きなさそうですが... >#画面出力がログのような時間属性を持っていないので、どこかにリ >#ダイレクトしても無駄に終わりそう。 > >画面に出てくる内容と速度からすると、どこかにログに残ってそうな >気配もなく... > > >>菅谷です。 >> >>ありがとうございます。 >> >>> それとも GC かどうか確定させるため、メモリについてはいじらず >>> に「setenv.bat に -verbose:gc を追加する」をやってみましょう >>> か? >> >>-Xmx1024m あれば十分かと思うので、 >>-verbose:gc の状況を見ていただけると >>大変助かります。 >> >>shinsuke >> >> >>2010年1月7日18:22 Masayuki Shibata : >>> 柴田@亀岡市です。 >>> >>>>-Xmx512m では少ないのかもしれません。 >>> >>> 少し前のご提案にしたがって -Xmx1024m にしてテストしています >>> ので、もう少し増やしてみましょうか? >>> >>> それとも GC かどうか確定させるため、メモリについてはいじらず >>> に「setenv.bat に -verbose:gc を追加する」をやってみましょう >>> か? >>> >>> 両方一度に変更すると、原因が見えにくくなるかも知れません。 >>> >>>>>>>>ですので、bin/setenv.[bat|sh] の -Xmx512m を >>>>>>>>-Xmx1024m とか変更すると改善するかも >>>>>>>>しれません。 >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> From shinsuke @ yahoo.co.jp Thu Jan 7 21:51:11 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Thu, 7 Jan 2010 21:51:11 +0900 Subject: [fess-user 88] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4u?= =?iso-2022-jp?b?Lg==?= In-Reply-To: <201001071056.AA12181@ea8055.shimadzu.co.jp> References: <201001071051.AA12180@ea8055.shimadzu.co.jp> <201001071056.AA12181@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 確認していただきありがとうございます。 すいません、確かに Windows だとそのままコンソールで 流れてしまいますね…。Unix だと catalina.out に出るので 忘れてました。Windows だと -Xloggc:file でファイル指定を するべきでした…。 ですが、 > ...の行と行の間で 18 分ほどかかっているログが fess.out で確認で > きましたが、その間 GC 状況の表示もずっと同じような調子で流れっ > ぱなしでした。 このときの GC によるメモリがどのように変動していたかも 気になりますが、これから考えると、IndexUpdater の処理中に GC をガツガツ動いていることが考えられると思います。 (IndexUpdaterの減速状態時にGCでメモリ変動が多いと GC による影響が考えられると思います) ですので、GC の 問題もあるかと思います。 >>流れているのが止まるとそう判断できるのでしょうか? IndexUpdater が止まっている時に GC が流れていて、 メモリが増えたり減ったりしていると GC 関連の影響が 大きいと考えていました。(お伝えするのを忘れてました…) 今、IndexUpdater について考えていたのですが、その中で XML から Java オブジェクトを生成する箇所があるのですが このときに大きなテキストとかで、引っかかるケースがある のではないかと考えています。ここの処理を改善することで 対応できないかを考えてみます。 shinsuke 2010年1月7日19:56 Masayuki Shibata : > 柴田です。実況中継モードです。 > > 今さきほど > Indexing http://... > ...の行と行の間で 18 分ほどかかっているログが fess.out で確認で > きましたが、その間 GC 状況の表示もずっと同じような調子で流れっ > ぱなしでした。 > >>流れているのが止まるとそう判断できるのでしょうか? > > ...が、もしそうなら「シロ」ということになるのではないかと思いま > す。 > > 判断条件が間違っているなら、その旨お知らせください。 > >>柴田@亀岡市です。 >> >>画面上かなりのスピードで表示流れていきますが (汗;)。 >>#流れていくのだし GC 時間も 0.0x sec オーダーのが続いている >>#という状態です。 >> >>どういう状態になったら「GC の影響」と判断できますか? >> >>流れているのが止まるとそう判断できるのでしょうか? >> >>ログの Indexing http://... 行で、時間が空いているところを狙って >>この画面上のその期間複数行を集計 (足す) というのだとちょっとで >>きなさそうですが... >>#画面出力がログのような時間属性を持っていないので、どこかにリ >>#ダイレクトしても無駄に終わりそう。 >> >>画面に出てくる内容と速度からすると、どこかにログに残ってそうな >>気配もなく... >> >> >>>菅谷です。 >>> >>>ありがとうございます。 >>> >>>> それとも GC かどうか確定させるため、メモリについてはいじらず >>>> に「setenv.bat に -verbose:gc を追加する」をやってみましょう >>>> か? >>> >>>-Xmx1024m あれば十分かと思うので、 >>>-verbose:gc の状況を見ていただけると >>>大変助かります。 >>> >>>shinsuke >>> >>> >>>2010年1月7日18:22 Masayuki Shibata : >>>> 柴田@亀岡市です。 >>>> >>>>>-Xmx512m では少ないのかもしれません。 >>>> >>>> 少し前のご提案にしたがって -Xmx1024m にしてテストしています >>>> ので、もう少し増やしてみましょうか? >>>> >>>> それとも GC かどうか確定させるため、メモリについてはいじらず >>>> に「setenv.bat に -verbose:gc を追加する」をやってみましょう >>>> か? >>>> >>>> 両方一度に変更すると、原因が見えにくくなるかも知れません。 >>>> >>>>>>>>>ですので、bin/setenv.[bat|sh] の -Xmx512m を >>>>>>>>>-Xmx1024m とか変更すると改善するかも >>>>>>>>>しれません。 >>>> >>>> _______________________________________________ >>>> Fess-user mailing list >>>> Fess-user @ lists.sourceforge.jp >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>>_______________________________________________ >>>Fess-user mailing list >>>Fess-user @ lists.sourceforge.jp >>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Fri Jan 8 06:34:41 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 8 Jan 2010 06:34:41 +0900 Subject: [fess-user 89] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4u?= =?iso-2022-jp?b?Lg==?= In-Reply-To: References: <201001071051.AA12180@ea8055.shimadzu.co.jp> <201001071056.AA12181@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 > 今、IndexUpdater について考えていたのですが、その中で > XML から Java オブジェクトを生成する箇所があるのですが > このときに大きなテキストとかで、引っかかるケースがある > のではないかと考えています。 改善されるかは確認できていませんが、 上記のロジックを変更してみました。 # 改善されることを祈ります… shinsuke 2010年1月7日21:51 Shinsuke Sugaya : > 菅谷です。 > > 確認していただきありがとうございます。 > すいません、確かに Windows だとそのままコンソールで > 流れてしまいますね…。Unix だと catalina.out に出るので > 忘れてました。Windows だと -Xloggc:file でファイル指定を > するべきでした…。 > > ですが、 > >> ...の行と行の間で 18 分ほどかかっているログが fess.out で確認で >> きましたが、その間 GC 状況の表示もずっと同じような調子で流れっ >> ぱなしでした。 > > このときの GC によるメモリがどのように変動していたかも > 気になりますが、これから考えると、IndexUpdater の処理中に > GC をガツガツ動いていることが考えられると思います。 > (IndexUpdaterの減速状態時にGCでメモリ変動が多いと > GC による影響が考えられると思います) ですので、GC の > 問題もあるかと思います。 > >>>流れているのが止まるとそう判断できるのでしょうか? > > IndexUpdater が止まっている時に GC が流れていて、 > メモリが増えたり減ったりしていると GC 関連の影響が > 大きいと考えていました。(お伝えするのを忘れてました…) > > > 今、IndexUpdater について考えていたのですが、その中で > XML から Java オブジェクトを生成する箇所があるのですが > このときに大きなテキストとかで、引っかかるケースがある > のではないかと考えています。ここの処理を改善することで > 対応できないかを考えてみます。 > > shinsuke > > 2010年1月7日19:56 Masayuki Shibata : >> 柴田です。実況中継モードです。 >> >> 今さきほど >> Indexing http://... >> ...の行と行の間で 18 分ほどかかっているログが fess.out で確認で >> きましたが、その間 GC 状況の表示もずっと同じような調子で流れっ >> ぱなしでした。 >> >>>流れているのが止まるとそう判断できるのでしょうか? >> >> ...が、もしそうなら「シロ」ということになるのではないかと思いま >> す。 >> >> 判断条件が間違っているなら、その旨お知らせください。 >> >>>柴田@亀岡市です。 >>> >>>画面上かなりのスピードで表示流れていきますが (汗;)。 >>>#流れていくのだし GC 時間も 0.0x sec オーダーのが続いている >>>#という状態です。 >>> >>>どういう状態になったら「GC の影響」と判断できますか? >>> >>>流れているのが止まるとそう判断できるのでしょうか? >>> >>>ログの Indexing http://... 行で、時間が空いているところを狙って >>>この画面上のその期間複数行を集計 (足す) というのだとちょっとで >>>きなさそうですが... >>>#画面出力がログのような時間属性を持っていないので、どこかにリ >>>#ダイレクトしても無駄に終わりそう。 >>> >>>画面に出てくる内容と速度からすると、どこかにログに残ってそうな >>>気配もなく... >>> >>> >>>>菅谷です。 >>>> >>>>ありがとうございます。 >>>> >>>>> それとも GC かどうか確定させるため、メモリについてはいじらず >>>>> に「setenv.bat に -verbose:gc を追加する」をやってみましょう >>>>> か? >>>> >>>>-Xmx1024m あれば十分かと思うので、 >>>>-verbose:gc の状況を見ていただけると >>>>大変助かります。 >>>> >>>>shinsuke >>>> >>>> >>>>2010年1月7日18:22 Masayuki Shibata : >>>>> 柴田@亀岡市です。 >>>>> >>>>>>-Xmx512m では少ないのかもしれません。 >>>>> >>>>> 少し前のご提案にしたがって -Xmx1024m にしてテストしています >>>>> ので、もう少し増やしてみましょうか? >>>>> >>>>> それとも GC かどうか確定させるため、メモリについてはいじらず >>>>> に「setenv.bat に -verbose:gc を追加する」をやってみましょう >>>>> か? >>>>> >>>>> 両方一度に変更すると、原因が見えにくくなるかも知れません。 >>>>> >>>>>>>>>>ですので、bin/setenv.[bat|sh] の -Xmx512m を >>>>>>>>>>-Xmx1024m とか変更すると改善するかも >>>>>>>>>>しれません。 >>>>> >>>>> _______________________________________________ >>>>> Fess-user mailing list >>>>> Fess-user @ lists.sourceforge.jp >>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >>>> >>>>_______________________________________________ >>>>Fess-user mailing list >>>>Fess-user @ lists.sourceforge.jp >>>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > From shinsuke @ yahoo.co.jp Fri Jan 8 08:43:44 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 8 Jan 2010 08:43:44 +0900 Subject: [fess-user 90] Re: =?iso-2022-jp?b?GyRCJTUlJCVIJV4lQyVXJFgkTkJQMX4hKRsoQg==?= In-Reply-To: <201001071019.AA12179@ea8055.shimadzu.co.jp> References: <201001071019.AA12179@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 サイトマップについては Fess がクロールエンジンとして 利用している S2Robot に以下のようなチケットを登録して います。 https://www.seasar.org/issues/browse/ROBOT-5 これで対応しようと思っていたのですが、作業リソース不足や 必須でもないなどにより、長い間放置してます(半年以上過ぎて しまいました・・・)。 ここ1ヶ月くらい闘ってきた 100 万ドキュメント対応も 一段落したので、そのようなケースもあるようであれば、 優先度を上げて処理したいと思います。ですので、 少々お待ちください(他に重い作業が入らなければ 来週中には何とかしたいと思います)。 shinsuke 2010年1月7日19:19 Masayuki Shibata : > 柴田@亀岡市です。 > > ある Web 型の文書管理サーバーソフトでの話です。 > > 文書ファイルへのリンクは、アイコンボタンの Action として記述されて > おり、いわゆる href リンクではないため fess でクロールできていませ > ん。 > > そこでそのサーバーソフトの開発元に何か手はないかとたずねたところ、 > 「サイトマップ」に対応しているので、それで何とかならないかみたいな > 回答がありました。 > > サイトマップとは... > http://www.sitemaps.org/ja/index.php > > 実際その機能を動かしてみると、指定 URL に > sitemapindex.xml と sitemap_0001.xml.gz > というファイルが作られていて、前者には後者のポインタ (多分後者が複 > 数作られるときにインデックス) を含んでおり、後者を展開して得られる > XML には... > > > http://hostname/xxx/htdocs/... > 2009-04-23T18:33:01+09:00 > > > ...のような文書ファイルへのリンクがズラっと並んで記述されています。 > > 話のやりとりからある種の規格のようなものだと推測されますが、これに > 対応できていれば確かにクロールするのに一発で済みそうです。 > > これについて何かご予定はお持ちでしょうか? > > ---------- > Shibata, Masayuki > Manager, Software Development > Shimadzu Corporation > Analytical Measuring Instruments Division > Research & Development Department > Telephone: 075-823-1441 Japan > Facsimile: 075-823-1365 Japan > E-mail: mshibata @ shimadzu.co.jp > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Fri Jan 8 18:06:40 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Fri, 08 Jan 2010 18:06:40 +0900 Subject: [fess-user 91] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4uLg==?= In-Reply-To: References: Message-ID: <201001080906.AA12193@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 今日は色々ゴタゴタがあって、ようやくテストできました。 「2分で完了しました。」 ファイル数 12。うち 5 ファイルが例の半角カナ混じり SJIS の 1MB 超の Subversion 上ログファイルです。 app.dicon maxDocumentCacheSize、unprocessedDocumentSize はデフォルト。 setenv.bat -Xmx1024m -verbose:gc -Xloggc:gc.log 付。 log4j.xml 1000 ドキュメント数毎にコミット ...です。もう少しチューニングはできるかも知れませんが、変更され たロジックがほぼ全体のスピードを決めている感じですね。 >菅谷です。 > >> 今、IndexUpdater について考えていたのですが、その中で >> XML から Java オブジェクトを生成する箇所があるのですが >> このときに大きなテキストとかで、引っかかるケースがある >> のではないかと考えています。 > >改善されるかは確認できていませんが、 >上記のロジックを変更してみました。 > ># 改善されることを祈ります… > >shinsuke > > >2010年1月7日21:51 Shinsuke Sugaya : >> 菅谷です。 >> >> 確認していただきありがとうございます。 >> すいません、確かに Windows だとそのままコンソールで >> 流れてしまいますね…。Unix だと catalina.out に出るので >> 忘れてました。Windows だと -Xloggc:file でファイル指定を >> するべきでした…。 >> >> ですが、 >> >>> ...の行と行の間で 18 分ほどかかっているログが fess.out で確認で >>> きましたが、その間 GC 状況の表示もずっと同じような調子で流れっ >>> ぱなしでした。 >> >> このときの GC によるメモリがどのように変動していたかも >> 気になりますが、これから考えると、IndexUpdater の処理中に >> GC をガツガツ動いていることが考えられると思います。 >> (IndexUpdaterの減速状態時にGCでメモリ変動が多いと >> GC による影響が考えられると思います) ですので、GC の >> 問題もあるかと思います。 >> >>>>流れているのが止まるとそう判断できるのでしょうか? >> >> IndexUpdater が止まっている時に GC が流れていて、 >> メモリが増えたり減ったりしていると GC 関連の影響が >> 大きいと考えていました。(お伝えするのを忘れてました…) >> >> >> 今、IndexUpdater について考えていたのですが、その中で >> XML から Java オブジェクトを生成する箇所があるのですが >> このときに大きなテキストとかで、引っかかるケースがある >> のではないかと考えています。ここの処理を改善することで >> 対応できないかを考えてみます。 >> >> shinsuke >> >> 2010年1月7日19:56 Masayuki Shibata : >>> 柴田です。実況中継モードです。 >>> >>> 今さきほど >>> Indexing http://... >>> ...の行と行の間で 18 分ほどかかっているログが fess.out で確認で >>> きましたが、その間 GC 状況の表示もずっと同じような調子で流れっ >>> ぱなしでした。 >>> >>>>流れているのが止まるとそう判断できるのでしょうか? >>> >>> ...が、もしそうなら「シロ」ということになるのではないかと思いま >>> す。 >>> >>> 判断条件が間違っているなら、その旨お知らせください。 >>> >>>>柴田@亀岡市です。 >>>> >>>>画面上かなりのスピードで表示流れていきますが (汗;)。 >>>>#流れていくのだし GC 時間も 0.0x sec オーダーのが続いている >>>>#という状態です。 >>>> >>>>どういう状態になったら「GC の影響」と判断できますか? >>>> >>>>流れているのが止まるとそう判断できるのでしょうか? >>>> >>>>ログの Indexing http://... 行で、時間が空いているところを狙って >>>>この画面上のその期間複数行を集計 (足す) というのだとちょっとで >>>>きなさそうですが... >>>>#画面出力がログのような時間属性を持っていないので、どこかにリ >>>>#ダイレクトしても無駄に終わりそう。 >>>> >>>>画面に出てくる内容と速度からすると、どこかにログに残ってそうな >>>>気配もなく... >>>> >>>> >>>>>菅谷です。 >>>>> >>>>>ありがとうございます。 >>>>> >>>>>> それとも GC かどうか確定させるため、メモリについてはいじらず >>>>>> に「setenv.bat に -verbose:gc を追加する」をやってみましょう >>>>>> か? >>>>> >>>>>-Xmx1024m あれば十分かと思うので、 >>>>>-verbose:gc の状況を見ていただけると >>>>>大変助かります。 >>>>> >>>>>shinsuke >>>>> >>>>> >>>>>2010年1月7日18:22 Masayuki Shibata : >>>>>> 柴田@亀岡市です。 >>>>>> >>>>>>>-Xmx512m では少ないのかもしれません。 >>>>>> >>>>>> 少し前のご提案にしたがって -Xmx1024m にしてテストしています >>>>>> ので、もう少し増やしてみましょうか? >>>>>> >>>>>> それとも GC かどうか確定させるため、メモリについてはいじらず >>>>>> に「setenv.bat に -verbose:gc を追加する」をやってみましょう >>>>>> か? >>>>>> >>>>>> 両方一度に変更すると、原因が見えにくくなるかも知れません。 >>>>>> >>>>>>>>>>>ですので、bin/setenv.[bat|sh] の -Xmx512m を >>>>>>>>>>>-Xmx1024m とか変更すると改善するかも >>>>>>>>>>>しれません。 >>>>>> >>>>>> _______________________________________________ >>>>>> Fess-user mailing list >>>>>> Fess-user @ lists.sourceforge.jp >>>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>>> >>>>> >>>>>_______________________________________________ >>>>>Fess-user mailing list >>>>>Fess-user @ lists.sourceforge.jp >>>>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > ---------- Shibata, Masayuki Manager, Software Development Shimadzu Corporation Analytical Measuring Instruments Division Research & Development Department Telephone: 075-823-1441 Japan Facsimile: 075-823-1365 Japan E-mail: mshibata @ shimadzu.co.jp From shinsuke @ yahoo.co.jp Fri Jan 8 18:42:16 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 8 Jan 2010 18:42:16 +0900 Subject: [fess-user 92] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWtDZiROJE8kOiQsGyhCMxskQjt+GyhC?= =?iso-2022-jp?b?GyRCNFYkWyRJMj8kYjUvJDMkaSRKJCQkTiRHJDkkLBsoQi4u?= =?iso-2022-jp?b?Lg==?= In-Reply-To: <201001080906.AA12193@ea8055.shimadzu.co.jp> References: <201001080906.AA12193@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 確認していただきありがとうございます。 変更した部分のところがメモリをガツガツ利用して いたのだと思います・・・。 引き続きいろいろとパフォーマンス改善をして いこうと思いますので、何かありましたら、 お知らせください。 shinsuke 2010年1月8日18:06 Masayuki Shibata : > 柴田@亀岡市です。 > > 今日は色々ゴタゴタがあって、ようやくテストできました。 > > 「2分で完了しました。」 > > ファイル数 12。うち 5 ファイルが例の半角カナ混じり SJIS の 1MB > 超の Subversion 上ログファイルです。 > > app.dicon > maxDocumentCacheSize、unprocessedDocumentSize はデフォルト。 > > setenv.bat > -Xmx1024m -verbose:gc -Xloggc:gc.log 付。 > > log4j.xml > > > > > 1000 ドキュメント数毎にコミット > > ...です。もう少しチューニングはできるかも知れませんが、変更され > たロジックがほぼ全体のスピードを決めている感じですね。 > >>菅谷です。 >> >>> 今、IndexUpdater について考えていたのですが、その中で >>> XML から Java オブジェクトを生成する箇所があるのですが >>> このときに大きなテキストとかで、引っかかるケースがある >>> のではないかと考えています。 >> >>改善されるかは確認できていませんが、 >>上記のロジックを変更してみました。 >> >># 改善されることを祈ります… >> >>shinsuke >> >> >>2010年1月7日21:51 Shinsuke Sugaya : >>> 菅谷です。 >>> >>> 確認していただきありがとうございます。 >>> すいません、確かに Windows だとそのままコンソールで >>> 流れてしまいますね…。Unix だと catalina.out に出るので >>> 忘れてました。Windows だと -Xloggc:file でファイル指定を >>> するべきでした…。 >>> >>> ですが、 >>> >>>> ...の行と行の間で 18 分ほどかかっているログが fess.out で確認で >>>> きましたが、その間 GC 状況の表示もずっと同じような調子で流れっ >>>> ぱなしでした。 >>> >>> このときの GC によるメモリがどのように変動していたかも >>> 気になりますが、これから考えると、IndexUpdater の処理中に >>> GC をガツガツ動いていることが考えられると思います。 >>> (IndexUpdaterの減速状態時にGCでメモリ変動が多いと >>> GC による影響が考えられると思います) ですので、GC の >>> 問題もあるかと思います。 >>> >>>>>流れているのが止まるとそう判断できるのでしょうか? >>> >>> IndexUpdater が止まっている時に GC が流れていて、 >>> メモリが増えたり減ったりしていると GC 関連の影響が >>> 大きいと考えていました。(お伝えするのを忘れてました…) >>> >>> >>> 今、IndexUpdater について考えていたのですが、その中で >>> XML から Java オブジェクトを生成する箇所があるのですが >>> このときに大きなテキストとかで、引っかかるケースがある >>> のではないかと考えています。ここの処理を改善することで >>> 対応できないかを考えてみます。 >>> >>> shinsuke >>> >>> 2010年1月7日19:56 Masayuki Shibata : >>>> 柴田です。実況中継モードです。 >>>> >>>> 今さきほど >>>> Indexing http://... >>>> ...の行と行の間で 18 分ほどかかっているログが fess.out で確認で >>>> きましたが、その間 GC 状況の表示もずっと同じような調子で流れっ >>>> ぱなしでした。 >>>> >>>>>流れているのが止まるとそう判断できるのでしょうか? >>>> >>>> ...が、もしそうなら「シロ」ということになるのではないかと思いま >>>> す。 >>>> >>>> 判断条件が間違っているなら、その旨お知らせください。 >>>> >>>>>柴田@亀岡市です。 >>>>> >>>>>画面上かなりのスピードで表示流れていきますが (汗;)。 >>>>>#流れていくのだし GC 時間も 0.0x sec オーダーのが続いている >>>>>#という状態です。 >>>>> >>>>>どういう状態になったら「GC の影響」と判断できますか? >>>>> >>>>>流れているのが止まるとそう判断できるのでしょうか? >>>>> >>>>>ログの Indexing http://... 行で、時間が空いているところを狙って >>>>>この画面上のその期間複数行を集計 (足す) というのだとちょっとで >>>>>きなさそうですが... >>>>>#画面出力がログのような時間属性を持っていないので、どこかにリ >>>>>#ダイレクトしても無駄に終わりそう。 >>>>> >>>>>画面に出てくる内容と速度からすると、どこかにログに残ってそうな >>>>>気配もなく... >>>>> >>>>> >>>>>>菅谷です。 >>>>>> >>>>>>ありがとうございます。 >>>>>> >>>>>>> それとも GC かどうか確定させるため、メモリについてはいじらず >>>>>>> に「setenv.bat に -verbose:gc を追加する」をやってみましょう >>>>>>> か? >>>>>> >>>>>>-Xmx1024m あれば十分かと思うので、 >>>>>>-verbose:gc の状況を見ていただけると >>>>>>大変助かります。 >>>>>> >>>>>>shinsuke >>>>>> >>>>>> >>>>>>2010年1月7日18:22 Masayuki Shibata : >>>>>>> 柴田@亀岡市です。 >>>>>>> >>>>>>>>-Xmx512m では少ないのかもしれません。 >>>>>>> >>>>>>> 少し前のご提案にしたがって -Xmx1024m にしてテストしています >>>>>>> ので、もう少し増やしてみましょうか? >>>>>>> >>>>>>> それとも GC かどうか確定させるため、メモリについてはいじらず >>>>>>> に「setenv.bat に -verbose:gc を追加する」をやってみましょう >>>>>>> か? >>>>>>> >>>>>>> 両方一度に変更すると、原因が見えにくくなるかも知れません。 >>>>>>> >>>>>>>>>>>>ですので、bin/setenv.[bat|sh] の -Xmx512m を >>>>>>>>>>>>-Xmx1024m とか変更すると改善するかも >>>>>>>>>>>>しれません。 >>>>>>> >>>>>>> _______________________________________________ >>>>>>> Fess-user mailing list >>>>>>> Fess-user @ lists.sourceforge.jp >>>>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>>>> >>>>>> >>>>>>_______________________________________________ >>>>>>Fess-user mailing list >>>>>>Fess-user @ lists.sourceforge.jp >>>>>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>>> >>>> >>>> _______________________________________________ >>>> Fess-user mailing list >>>> Fess-user @ lists.sourceforge.jp >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > ---------- > Shibata, Masayuki > Manager, Software Development > Shimadzu Corporation > Analytical Measuring Instruments Division > Research & Development Department > Telephone: 075-823-1441 Japan > Facsimile: 075-823-1365 Japan > E-mail: mshibata @ shimadzu.co.jp > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Sat Jan 9 21:49:32 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Sat, 9 Jan 2010 21:49:32 +0900 Subject: [fess-user 93] Re: =?iso-2022-jp?b?GyRCJTUlJCVIJV4lQyVXJFgkTkJQMX4hKRsoQg==?= In-Reply-To: References: <201001071019.AA12179@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 対応してみました。 URL にサイトマップを指定すると、そこからクロール先の リンクを利用します。サイトマップのファイル名は sitemap.*.xml、sitemap.*.gz、sitemap.*txt である 必要があります(webapps/fess/WEB-INF/classes/ s2robot_rule.dicon でカスタマイズは可能です)。 対応するサイトマップのフォーマットは XML Sitemaps、 XML Sitemaps Index、テキストです(RSS もあるみたい ですが未対応)。 何かありましたらお知らせください # Fess のバージョンを 2.0.0 系に変更しました shinsuke 2010年1月8日8:43 Shinsuke Sugaya : > 菅谷です。 > > サイトマップについては Fess がクロールエンジンとして > 利用している S2Robot に以下のようなチケットを登録して > います。 > > https://www.seasar.org/issues/browse/ROBOT-5 > > これで対応しようと思っていたのですが、作業リソース不足や > 必須でもないなどにより、長い間放置してます(半年以上過ぎて > しまいました・・・)。 > > ここ1ヶ月くらい闘ってきた 100 万ドキュメント対応も > 一段落したので、そのようなケースもあるようであれば、 > 優先度を上げて処理したいと思います。ですので、 > 少々お待ちください(他に重い作業が入らなければ > 来週中には何とかしたいと思います)。 > > shinsuke > > > 2010年1月7日19:19 Masayuki Shibata : >> 柴田@亀岡市です。 >> >> ある Web 型の文書管理サーバーソフトでの話です。 >> >> 文書ファイルへのリンクは、アイコンボタンの Action として記述されて >> おり、いわゆる href リンクではないため fess でクロールできていませ >> ん。 >> >> そこでそのサーバーソフトの開発元に何か手はないかとたずねたところ、 >> 「サイトマップ」に対応しているので、それで何とかならないかみたいな >> 回答がありました。 >> >> サイトマップとは... >> http://www.sitemaps.org/ja/index.php >> >> 実際その機能を動かしてみると、指定 URL に >> sitemapindex.xml と sitemap_0001.xml.gz >> というファイルが作られていて、前者には後者のポインタ (多分後者が複 >> 数作られるときにインデックス) を含んでおり、後者を展開して得られる >> XML には... >> >> >> http://hostname/xxx/htdocs/... >> 2009-04-23T18:33:01+09:00 >> >> >> ...のような文書ファイルへのリンクがズラっと並んで記述されています。 >> >> 話のやりとりからある種の規格のようなものだと推測されますが、これに >> 対応できていれば確かにクロールするのに一発で済みそうです。 >> >> これについて何かご予定はお持ちでしょうか? >> >> ---------- >> Shibata, Masayuki >> Manager, Software Development >> Shimadzu Corporation >> Analytical Measuring Instruments Division >> Research & Development Department >> Telephone: 075-823-1441 Japan >> Facsimile: 075-823-1365 Japan >> E-mail: mshibata @ shimadzu.co.jp >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > From shinsuke @ yahoo.co.jp Tue Jan 12 08:44:32 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Tue, 12 Jan 2010 08:44:32 +0900 Subject: [fess-user 94] Re: =?iso-2022-jp?b?GyRCJW0hPCVrQF9EaiROO0gkJEp9GyhC?= In-Reply-To: References: <201001050945.AA12157@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 Fess のログイン画面を利用するロール機能を 実装してみました。利用方法は簡単ですが、 以下に書いてみました。 http://fess.sourceforge.jp/ja/2.0/config/role-setting.html 何かありましたら、お知らせください。 shinsuke 2010年1月6日10:46 Shinsuke Sugaya : > 菅谷です。 > > #ドキュメント化できていなくて、すいません… > > ロール機能は任意の認証システムにおいて、 > 認証されたユーザーの認証情報を元に検索結果を > 出し分けることを想定しています。 > > たとえば、ポータルシステムにおいてログインした > ユーザーのロールごとに検索結果を出し分ける > ことなどがあげられます。ロールaを持つユーザーAは > 検索結果にロールaの情報などが表示されるけど、 > ロールaを持たないユーザーBは検索しても、それが > 表示されない感じです。 > > 私はポータルをよく作っているのですが、所属する > 部門別や役職別などに検索のような要望を受けるので > それを実現するための機能として用意しています。 > (これを想定する全文検索システムはあまり見ない > 気がしてますが…) > > 使い方としては、SSO ではいろいろとやることが多いかと > 思いますが、別な認証システムでログインしたときに > Fess が取得可能なクッキーに情報を入れてもらって、 > 認証情報を取得するとか、リバースプロキシ型 SSO で > 認証したら、プロキシ経由で Fess にアクセスする際に > リクエストヘッダーに認証情報を入れてもらうことで > Fess でそれを取得するなどの使い方があるかと思い > ます。 > >> この設定ですが、Tomcat にログインした ID のロールによって検索に >> ヒットするしないを 管理画面の「ウェブ」「ファイルシステム」の各 >> 設定名ごとに決められるということでしょうか? > > 「Tomcat にログインした ID のロール」というより > 任意の認証システムにログインしたユーザーのロール > などを想定しています。Fess 上ではロールとして > いますが、何かの識別子であれば可能かと思います。 > ロールを持つ各設定で作られたインデックスはその > ロールを持つユーザーでないと検索結果に表示されない > ことを想定しています。ロールがない設定は、ロールを > 持つ・持たないにかかわらず、検索結果に表示されます。 > >> ・ログイン画面は Fess が提供する? >> 管理画面を開こうとするとログイン画面が起きますが、そこで fess >> というロールの ID でログインすると管理画面にリダイレクトしてい >> ます。 > > 現時点では、何かの認証システムにより設定された > 情報をroleQueryHelperで取得するイメージでいました。 > なので、細かいことをやろうとすると、自前で拡張する > ことになります。 > > これですと、ロール機能を利用する敷居がかなり高い > 気がしていたので、サンプルとして試せるように > Fess のログインで管理者でなければ、検索に飛ばして > ロールベースの検索ができるようにすると良い気が > してきました。(ちょっと検討します) > >> ・ユーザー管理機能も Fess が提供する? > > これは考えてないです。任意のシステムの認証情報を > どのように汎用的に利用していけるか、という点でいます。 > ですので、ユーザー管理機能への連携機能は提供できれば > 良いかと考えてます。 > >> リクエストヘッダの設定が今のところ謎です > > リクエストヘッダーの機能はドキュメントをクロールして > 取得するときにリクエストヘッダーに付加されます。 > たとえば、認証システムでヘッダー情報を見て、 > 特定の値があれば、自動でログインした状態に > するなどの利用があるかと思います。某〜 Mini も > この機能はあったかと思います。 > > shinsuke > > 2010年1月5日18:45 Masayuki Shibata : >> 柴田@亀岡市です。 >> >> この設定ですが、Tomcat にログインした ID のロールによって検索に >> ヒットするしないを 管理画面の「ウェブ」「ファイルシステム」の各 >> 設定名ごとに決められるということでしょうか? >> >> もしそうなら以下の質問... >> >> ・ログインは任意? >> ログインしたときのロールが一致していなければヒットしないものが >> あるとして、ロール設定されていないクロール先だとログインしてい >> ない状態で検索できるのでしょうか? >> >> そうなるとロール設定のあるクロール先を検索したいときだけログイ >> ンする仕様でしょうか? >> >> それとも必ずログインして、ロール設定されてないクロール先は、ロ >> グインした ID のロールに関わらずヒットするという仕様でしょうか? >> >> もし前者なら以下の質問... >> >> ・ログイン画面は Fess が提供する? >> 管理画面を開こうとするとログイン画面が起きますが、そこで fess >> というロールの ID でログインすると管理画面にリダイレクトしてい >> ます。 >> >> 違うロールの ID だと検索画面にリダイレクトしてクロール先のロー >> ル設定との一致不一致が検索条件の一部になるのでしょうか? >> #現状はエラーになるようですが... >> >> それとも ロール = fess 以外のログインは、Tomcat の機能を使って、 >> 利用者側で用意する筋合いのものでしょうか? >> #だとすると管理画面を開くときのログイン画面の位置づけが何とな >> #く腑に落ちない気がするので、きっと前者かなと思ってるのですが... >> >> ・ユーザー管理機能も Fess が提供する? >> これは上の (現状見えている面子から組み立てのできる) 推理と違っ >> てまったく根拠のない質問ですが、何となく方向性としてそうかなと >> 思った次第です。 >> >> まったく外しているかも知れませんが、もしかしたらウチの需要にマ >> ッチした仕様かも知れませんので探りを入れさせてください。 >> >> これ (ロールの設定) とリクエストヘッダの設定が今のところ謎です >> ので、どうテストしたらよいものか...と。 >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > From mshibata @ shimadzu.co.jp Tue Jan 12 16:53:41 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Tue, 12 Jan 2010 16:53:41 +0900 Subject: [fess-user 95] Re: =?iso-2022-jp?b?GyRCJW0hPCVrQF9EaiROO0gkJEp9GyhC?= In-Reply-To: References: Message-ID: <201001120753.AA12207@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 >> ロールを持つ各設定で作られたインデックスはその >> ロールを持つユーザーでないと検索結果に表示されない >> ことを想定しています。ロールがない設定は、ロールを >> 持つ・持たないにかかわらず、検索結果に表示されます。 ログインしてると、その ID のロール設定にしたがった検索結果は 表示され、ロール設定のない検索結果は表示されない。 ログインしていないと何も表示されない。 ...ような気がします。 ちょっとまとまった時間がとれず、パッとやってみただけなので、 何か設定が間違っているかも知れませんが... 全クロール先に guest というロールを設定しておけばよいのでしょ うか?何とはなしに設定ファイルを見るとそんな感じはしているの ですが、まずは確認させてください。 >菅谷です。 > >Fess のログイン画面を利用するロール機能を >実装してみました。利用方法は簡単ですが、 >以下に書いてみました。 > >http://fess.sourceforge.jp/ja/2.0/config/role-setting.html > >何かありましたら、お知らせください。 > >shinsuke > >2010年1月6日10:46 Shinsuke Sugaya : >> 菅谷です。 >> >> #ドキュメント化できていなくて、すいません… >> >> ロール機能は任意の認証システムにおいて、 >> 認証されたユーザーの認証情報を元に検索結果を >> 出し分けることを想定しています。 >> >> たとえば、ポータルシステムにおいてログインした >> ユーザーのロールごとに検索結果を出し分ける >> ことなどがあげられます。ロールaを持つユーザーAは >> 検索結果にロールaの情報などが表示されるけど、 >> ロールaを持たないユーザーBは検索しても、それが >> 表示されない感じです。 >> >> 私はポータルをよく作っているのですが、所属する >> 部門別や役職別などに検索のような要望を受けるので >> それを実現するための機能として用意しています。 >> (これを想定する全文検索システムはあまり見ない >> 気がしてますが…) >> >> 使い方としては、SSO ではいろいろとやることが多いかと >> 思いますが、別な認証システムでログインしたときに >> Fess が取得可能なクッキーに情報を入れてもらって、 >> 認証情報を取得するとか、リバースプロキシ型 SSO で >> 認証したら、プロキシ経由で Fess にアクセスする際に >> リクエストヘッダーに認証情報を入れてもらうことで >> Fess でそれを取得するなどの使い方があるかと思い >> ます。 >> >>> この設定ですが、Tomcat にログインした ID のロールによって検索に >>> ヒットするしないを 管理画面の「ウェブ」「ファイルシステム」の各 >>> 設定名ごとに決められるということでしょうか? >> >> 「Tomcat にログインした ID のロール」というより >> 任意の認証システムにログインしたユーザーのロール >> などを想定しています。Fess 上ではロールとして >> いますが、何かの識別子であれば可能かと思います。 >> ロールを持つ各設定で作られたインデックスはその >> ロールを持つユーザーでないと検索結果に表示されない >> ことを想定しています。ロールがない設定は、ロールを >> 持つ・持たないにかかわらず、検索結果に表示されます。 >> >>> ・ログイン画面は Fess が提供する? >>> 管理画面を開こうとするとログイン画面が起きますが、そこで fess >>> というロールの ID でログインすると管理画面にリダイレクトしてい >>> ます。 >> >> 現時点では、何かの認証システムにより設定された >> 情報をroleQueryHelperで取得するイメージでいました。 >> なので、細かいことをやろうとすると、自前で拡張する >> ことになります。 >> >> これですと、ロール機能を利用する敷居がかなり高い >> 気がしていたので、サンプルとして試せるように >> Fess のログインで管理者でなければ、検索に飛ばして >> ロールベースの検索ができるようにすると良い気が >> してきました。(ちょっと検討します) >> >>> ・ユーザー管理機能も Fess が提供する? >> >> これは考えてないです。任意のシステムの認証情報を >> どのように汎用的に利用していけるか、という点でいます。 >> ですので、ユーザー管理機能への連携機能は提供できれば >> 良いかと考えてます。 >> >>> リクエストヘッダの設定が今のところ謎です >> >> リクエストヘッダーの機能はドキュメントをクロールして >> 取得するときにリクエストヘッダーに付加されます。 >> たとえば、認証システムでヘッダー情報を見て、 >> 特定の値があれば、自動でログインした状態に >> するなどの利用があるかと思います。某〜 Mini も >> この機能はあったかと思います。 >> >> shinsuke >> >> 2010年1月5日18:45 Masayuki Shibata : >>> 柴田@亀岡市です。 >>> >>> この設定ですが、Tomcat にログインした ID のロールによって検索に >>> ヒットするしないを 管理画面の「ウェブ」「ファイルシステム」の各 >>> 設定名ごとに決められるということでしょうか? >>> >>> もしそうなら以下の質問... >>> >>> ・ログインは任意? >>> ログインしたときのロールが一致していなければヒットしないものが >>> あるとして、ロール設定されていないクロール先だとログインしてい >>> ない状態で検索できるのでしょうか? >>> >>> そうなるとロール設定のあるクロール先を検索したいときだけログイ >>> ンする仕様でしょうか? >>> >>> それとも必ずログインして、ロール設定されてないクロール先は、ロ >>> グインした ID のロールに関わらずヒットするという仕様でしょうか? >>> >>> もし前者なら以下の質問... >>> >>> ・ログイン画面は Fess が提供する? >>> 管理画面を開こうとするとログイン画面が起きますが、そこで fess >>> というロールの ID でログインすると管理画面にリダイレクトしてい >>> ます。 >>> >>> 違うロールの ID だと検索画面にリダイレクトしてクロール先のロー >>> ル設定との一致不一致が検索条件の一部になるのでしょうか? >>> #現状はエラーになるようですが... >>> >>> それとも ロール = fess 以外のログインは、Tomcat の機能を使って、 >>> 利用者側で用意する筋合いのものでしょうか? >>> #だとすると管理画面を開くときのログイン画面の位置づけが何とな >>> #く腑に落ちない気がするので、きっと前者かなと思ってるのですが... >>> >>> ・ユーザー管理機能も Fess が提供する? >>> これは上の (現状見えている面子から組み立てのできる) 推理と違っ >>> てまったく根拠のない質問ですが、何となく方向性としてそうかなと >>> 思った次第です。 >>> >>> まったく外しているかも知れませんが、もしかしたらウチの需要にマ >>> ッチした仕様かも知れませんので探りを入れさせてください。 >>> >>> これ (ロールの設定) とリクエストヘッダの設定が今のところ謎です >>> ので、どうテストしたらよいものか...と。 >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > ---------- Shibata, Masayuki Manager, Software Development Shimadzu Corporation Analytical Measuring Instruments Division Research & Development Department Telephone: 075-823-1441 Japan Facsimile: 075-823-1365 Japan E-mail: mshibata @ shimadzu.co.jp From shinsuke @ yahoo.co.jp Tue Jan 12 17:58:58 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Tue, 12 Jan 2010 17:58:58 +0900 Subject: [fess-user 96] Re: =?iso-2022-jp?b?GyRCJW0hPCVrQF9EaiROO0gkJEp9GyhC?= In-Reply-To: <201001120753.AA12207@ea8055.shimadzu.co.jp> References: <201001120753.AA12207@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 すいません。訂正し忘れてました・・・。 > ログインしていないと何も表示されない。 これが正しいです。 > 全クロール先に guest というロールを設定しておけばよいのでしょ > うか? はい。 デフォルトのロールを設定せずに、ログインしないで 検索すると全件がヒットしてしまいます。ですので、 defaultRoleList に guest を設定して、ログインした・ してないユーザーに表示したい場合はクロール設定で guest ロールを選択してください。また、あるロールだけ で表示したい場合は guest を選択しなければOKです。 shinsuke 2010年1月12日16:53 Masayuki Shibata : > 柴田@亀岡市です。 > >>> ロールを持つ各設定で作られたインデックスはその >>> ロールを持つユーザーでないと検索結果に表示されない >>> ことを想定しています。ロールがない設定は、ロールを >>> 持つ・持たないにかかわらず、検索結果に表示されます。 > > ログインしてると、その ID のロール設定にしたがった検索結果は > 表示され、ロール設定のない検索結果は表示されない。 > > ログインしていないと何も表示されない。 > > ...ような気がします。 > > ちょっとまとまった時間がとれず、パッとやってみただけなので、 > 何か設定が間違っているかも知れませんが... > > 全クロール先に guest というロールを設定しておけばよいのでしょ > うか?何とはなしに設定ファイルを見るとそんな感じはしているの > ですが、まずは確認させてください。 > > >>菅谷です。 >> >>Fess のログイン画面を利用するロール機能を >>実装してみました。利用方法は簡単ですが、 >>以下に書いてみました。 >> >>http://fess.sourceforge.jp/ja/2.0/config/role-setting.html >> >>何かありましたら、お知らせください。 >> >>shinsuke >> >>2010年1月6日10:46 Shinsuke Sugaya : >>> 菅谷です。 >>> >>> #ドキュメント化できていなくて、すいません… >>> >>> ロール機能は任意の認証システムにおいて、 >>> 認証されたユーザーの認証情報を元に検索結果を >>> 出し分けることを想定しています。 >>> >>> たとえば、ポータルシステムにおいてログインした >>> ユーザーのロールごとに検索結果を出し分ける >>> ことなどがあげられます。ロールaを持つユーザーAは >>> 検索結果にロールaの情報などが表示されるけど、 >>> ロールaを持たないユーザーBは検索しても、それが >>> 表示されない感じです。 >>> >>> 私はポータルをよく作っているのですが、所属する >>> 部門別や役職別などに検索のような要望を受けるので >>> それを実現するための機能として用意しています。 >>> (これを想定する全文検索システムはあまり見ない >>> 気がしてますが…) >>> >>> 使い方としては、SSO ではいろいろとやることが多いかと >>> 思いますが、別な認証システムでログインしたときに >>> Fess が取得可能なクッキーに情報を入れてもらって、 >>> 認証情報を取得するとか、リバースプロキシ型 SSO で >>> 認証したら、プロキシ経由で Fess にアクセスする際に >>> リクエストヘッダーに認証情報を入れてもらうことで >>> Fess でそれを取得するなどの使い方があるかと思い >>> ます。 >>> >>>> この設定ですが、Tomcat にログインした ID のロールによって検索に >>>> ヒットするしないを 管理画面の「ウェブ」「ファイルシステム」の各 >>>> 設定名ごとに決められるということでしょうか? >>> >>> 「Tomcat にログインした ID のロール」というより >>> 任意の認証システムにログインしたユーザーのロール >>> などを想定しています。Fess 上ではロールとして >>> いますが、何かの識別子であれば可能かと思います。 >>> ロールを持つ各設定で作られたインデックスはその >>> ロールを持つユーザーでないと検索結果に表示されない >>> ことを想定しています。ロールがない設定は、ロールを >>> 持つ・持たないにかかわらず、検索結果に表示されます。 >>> >>>> ・ログイン画面は Fess が提供する? >>>> 管理画面を開こうとするとログイン画面が起きますが、そこで fess >>>> というロールの ID でログインすると管理画面にリダイレクトしてい >>>> ます。 >>> >>> 現時点では、何かの認証システムにより設定された >>> 情報をroleQueryHelperで取得するイメージでいました。 >>> なので、細かいことをやろうとすると、自前で拡張する >>> ことになります。 >>> >>> これですと、ロール機能を利用する敷居がかなり高い >>> 気がしていたので、サンプルとして試せるように >>> Fess のログインで管理者でなければ、検索に飛ばして >>> ロールベースの検索ができるようにすると良い気が >>> してきました。(ちょっと検討します) >>> >>>> ・ユーザー管理機能も Fess が提供する? >>> >>> これは考えてないです。任意のシステムの認証情報を >>> どのように汎用的に利用していけるか、という点でいます。 >>> ですので、ユーザー管理機能への連携機能は提供できれば >>> 良いかと考えてます。 >>> >>>> リクエストヘッダの設定が今のところ謎です >>> >>> リクエストヘッダーの機能はドキュメントをクロールして >>> 取得するときにリクエストヘッダーに付加されます。 >>> たとえば、認証システムでヘッダー情報を見て、 >>> 特定の値があれば、自動でログインした状態に >>> するなどの利用があるかと思います。某〜 Mini も >>> この機能はあったかと思います。 >>> >>> shinsuke >>> >>> 2010年1月5日18:45 Masayuki Shibata : >>>> 柴田@亀岡市です。 >>>> >>>> この設定ですが、Tomcat にログインした ID のロールによって検索に >>>> ヒットするしないを 管理画面の「ウェブ」「ファイルシステム」の各 >>>> 設定名ごとに決められるということでしょうか? >>>> >>>> もしそうなら以下の質問... >>>> >>>> ・ログインは任意? >>>> ログインしたときのロールが一致していなければヒットしないものが >>>> あるとして、ロール設定されていないクロール先だとログインしてい >>>> ない状態で検索できるのでしょうか? >>>> >>>> そうなるとロール設定のあるクロール先を検索したいときだけログイ >>>> ンする仕様でしょうか? >>>> >>>> それとも必ずログインして、ロール設定されてないクロール先は、ロ >>>> グインした ID のロールに関わらずヒットするという仕様でしょうか? >>>> >>>> もし前者なら以下の質問... >>>> >>>> ・ログイン画面は Fess が提供する? >>>> 管理画面を開こうとするとログイン画面が起きますが、そこで fess >>>> というロールの ID でログインすると管理画面にリダイレクトしてい >>>> ます。 >>>> >>>> 違うロールの ID だと検索画面にリダイレクトしてクロール先のロー >>>> ル設定との一致不一致が検索条件の一部になるのでしょうか? >>>> #現状はエラーになるようですが... >>>> >>>> それとも ロール = fess 以外のログインは、Tomcat の機能を使って、 >>>> 利用者側で用意する筋合いのものでしょうか? >>>> #だとすると管理画面を開くときのログイン画面の位置づけが何とな >>>> #く腑に落ちない気がするので、きっと前者かなと思ってるのですが... >>>> >>>> ・ユーザー管理機能も Fess が提供する? >>>> これは上の (現状見えている面子から組み立てのできる) 推理と違っ >>>> てまったく根拠のない質問ですが、何となく方向性としてそうかなと >>>> 思った次第です。 >>>> >>>> まったく外しているかも知れませんが、もしかしたらウチの需要にマ >>>> ッチした仕様かも知れませんので探りを入れさせてください。 >>>> >>>> これ (ロールの設定) とリクエストヘッダの設定が今のところ謎です >>>> ので、どうテストしたらよいものか...と。 >>>> >>>> _______________________________________________ >>>> Fess-user mailing list >>>> Fess-user @ lists.sourceforge.jp >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > ---------- > Shibata, Masayuki > Manager, Software Development > Shimadzu Corporation > Analytical Measuring Instruments Division > Research & Development Department > Telephone: 075-823-1441 Japan > Facsimile: 075-823-1365 Japan > E-mail: mshibata @ shimadzu.co.jp > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Wed Jan 13 18:44:16 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Wed, 13 Jan 2010 18:44:16 +0900 Subject: [fess-user 97] Re: =?iso-2022-jp?b?GyRCJTUlJCVIJV4lQyVXJFgkTkJQMX4hKRsoQg==?= In-Reply-To: References: Message-ID: <201001130944.AA12216@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 イマイチ、設定がピンと来ないので教えてください。 >URL にサイトマップを指定すると、そこからクロール先の >リンクを利用します。サイトマップのファイル名は >sitemap.*.xml、sitemap.*.gz、sitemap.*txt である >必要があります(webapps/fess/WEB-INF/classes/ >s2robot_rule.dicon でカスタマイズは可能です)。 「URL」ですね? 「クロール対象とするURL」ではなくって... そこに指定する URL ですが、サイトマップファイル名までは含めない のですか?ファイル名パターンで自動的にヒットするのですか? サイトマップファイルには、サイトマップの URL の下ではない別のと ころの URL が書いてある理屈ですが、「クロール対象とするURL」に はそちらの URL 正規表現を入れておくのでしょうか? クロール対象とするURL にはサイトマップファイル内にないものも配 下にあるのですが、それもどうもヒットしてきているみたいで、上記 想定は少し外れているみたいで、ちょっとわからなくなってます。 試行錯誤して見つける努力はしますが、もしよろしければご教示いた だけると助かります。 From shinsuke @ yahoo.co.jp Wed Jan 13 23:50:03 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Wed, 13 Jan 2010 23:50:03 +0900 Subject: [fess-user 98] Re: =?iso-2022-jp?b?GyRCJTUlJCVIJV4lQyVXJFgkTkJQMX4hKRsoQg==?= In-Reply-To: <201001130944.AA12216@ea8055.shimadzu.co.jp> References: <201001130944.AA12216@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 > 「URL」ですね? はい。 通常の起点となる URL と同様にサイトマップの URL を指定します。 > そこに指定する URL ですが、サイトマップファイル名までは含めない > のですか? ファイル名まで含める必要があります。 >ファイル名パターンで自動的にヒットするのですか? いいえ、パターンで自動にヒットしません。 サイトマップは普通の XML ファイルなどなので クロール時にその URL が普通の XML ファイルなのか サイトマップなのかが区別できません。ですので、 >>sitemap.*.xml、sitemap.*.gz、sitemap.*txt である であればその URL から取得したものをサイトマップとして 処理します。 > サイトマップファイルには、サイトマップの URL の下ではない別のと > ころの URL が書いてある理屈ですが、 サイトマップはサイトマップファイルが置いてある URL 以下の 場所しか指定できませんが、今のところ、Fess では特に制限せずに サイトマップファイルに記述してある URL を子リンクとして 次のクロール対象とします。 > 「クロール対象とするURL」に > はそちらの URL 正規表現を入れておくのでしょうか? サイトマップファイルに書いてある URL は、通常の HTML 内に 書いてあるリンクと同じ扱いになります。ですので、サイトマップの URL をクロールしたい場合はクロール対象 URL などで制御できます。 HTML ファイルをクロールするとリンクが次のクロール対象に なりますが、サイトマップファイルをクロールするとその中の URLが次のクロール対象になる感じです。 現在、いろいろとドキュメント整備を進めていますが、 不明な点がありましたら、お知らせください。 (いろいろとご指摘いただき助かっています) shinsuke 2010年1月13日18:44 Masayuki Shibata : > 柴田@亀岡市です。 > > イマイチ、設定がピンと来ないので教えてください。 > >>URL にサイトマップを指定すると、そこからクロール先の >>リンクを利用します。サイトマップのファイル名は >>sitemap.*.xml、sitemap.*.gz、sitemap.*txt である >>必要があります(webapps/fess/WEB-INF/classes/ >>s2robot_rule.dicon でカスタマイズは可能です)。 > > 「URL」ですね? > 「クロール対象とするURL」ではなくって... > > そこに指定する URL ですが、サイトマップファイル名までは含めない > のですか?ファイル名パターンで自動的にヒットするのですか? > > サイトマップファイルには、サイトマップの URL の下ではない別のと > ころの URL が書いてある理屈ですが、「クロール対象とするURL」に > はそちらの URL 正規表現を入れておくのでしょうか? > > クロール対象とするURL にはサイトマップファイル内にないものも配 > 下にあるのですが、それもどうもヒットしてきているみたいで、上記 > 想定は少し外れているみたいで、ちょっとわからなくなってます。 > > 試行錯誤して見つける努力はしますが、もしよろしければご教示いた > だけると助かります。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Thu Jan 14 11:53:48 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Thu, 14 Jan 2010 11:53:48 +0900 Subject: [fess-user 99] =?iso-2022-jp?b?dXNlRGlnZXN0ID0gZmFsc2UgGyRCQF9EaiQsOHokKyRKGyhC?= =?iso-2022-jp?b?GyRCJCQbKEI=?= Message-ID: <201001140253.AA12218@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 webapps\fess\WEB-INF\classes\app.dicon の false ...の設定が効かなくなったような気がします。 念のためお知らせします。 From shinsuke @ yahoo.co.jp Thu Jan 14 12:37:26 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Thu, 14 Jan 2010 12:37:26 +0900 Subject: [fess-user 100] Re: =?iso-2022-jp?b?dXNlRGlnZXN0ID0gZmFsc2UgGyRCQF9EaiQsOHobKEI=?= =?iso-2022-jp?b?GyRCJCskSiQkGyhC?= In-Reply-To: <201001140253.AA12218@ea8055.shimadzu.co.jp> References: <201001140253.AA12218@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 検索結果表示のパフォーマンス向上のため、 検索結果のハイライトの処理を Solr にさせるように 最近変更しました。 ダイジェスト部分には何が表示されているで しょうか? (空白、metaタグの description、 コンテンツの一部など) 菅谷 2010年1月14日11:53 Masayuki Shibata : > 柴田@亀岡市です。 > > webapps\fess\WEB-INF\classes\app.dicon の > > > false > > > ...の設定が効かなくなったような気がします。 > > 念のためお知らせします。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Thu Jan 14 17:16:48 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Thu, 14 Jan 2010 17:16:48 +0900 Subject: [fess-user 101] Re: =?iso-2022-jp?b?dXNlRGlnZXN0ID0gZmFsc2UgGyRCQF9EaiQsOHobKEI=?= =?iso-2022-jp?b?GyRCJCskSiQkGyhC?= In-Reply-To: References: Message-ID: <201001140816.AA12222@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 ... (ピリオド3つ) ...が表示されているか、まったくの空白かのどちらかが多いです。 でも内容が表示されているところもあるのでちょっと不思議です。 以前は PDF などファイルが対象のときとそれ以外で分かれていた のですが、「...」と空白と内容表示の間にどんな差があってそう なっているのかがわかりません。 >菅谷です。 > >検索結果表示のパフォーマンス向上のため、 >検索結果のハイライトの処理を Solr にさせるように >最近変更しました。 > >ダイジェスト部分には何が表示されているで >しょうか? (空白、metaタグの description、 >コンテンツの一部など) > >菅谷 > >2010年1月14日11:53 Masayuki Shibata : >> 柴田@亀岡市です。 >> >> webapps\fess\WEB-INF\classes\app.dicon の >> >> >> false >> >> >> ...の設定が効かなくなったような気がします。 >> >> 念のためお知らせします。 >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Thu Jan 14 21:03:17 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Thu, 14 Jan 2010 21:03:17 +0900 Subject: [fess-user 102] Re: =?iso-2022-jp?b?dXNlRGlnZXN0ID0gZmFsc2UgGyRCQF9EaiQsOHobKEI=?= =?iso-2022-jp?b?GyRCJCskSiQkGyhC?= In-Reply-To: <201001140816.AA12222@ea8055.shimadzu.co.jp> References: <201001140816.AA12222@ea8055.shimadzu.co.jp> Message-ID: <201001141203.AA12227@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 本日 13時頃のスナップショットで動かしてみてます。 今朝のバージョンから出てたのか、このバージョンからか未確認 ですが、meta タグの description が表示されているものもあり ました。 補足させていただきます。 >柴田@亀岡市です。 > >... (ピリオド3つ) > >...が表示されているか、まったくの空白かのどちらかが多いです。 > >でも内容が表示されているところもあるのでちょっと不思議です。 > >以前は PDF などファイルが対象のときとそれ以外で分かれていた >のですが、「...」と空白と内容表示の間にどんな差があってそう >なっているのかがわかりません。 > > >>菅谷です。 >> >>検索結果表示のパフォーマンス向上のため、 >>検索結果のハイライトの処理を Solr にさせるように >>最近変更しました。 >> >>ダイジェスト部分には何が表示されているで >>しょうか? (空白、metaタグの description、 >>コンテンツの一部など) >> >>菅谷 >> >>2010年1月14日11:53 Masayuki Shibata : >>> 柴田@亀岡市です。 >>> >>> webapps\fess\WEB-INF\classes\app.dicon の >>> >>> >>> false >>> >>> >>> ...の設定が効かなくなったような気がします。 >>> >>> 念のためお知らせします。 >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Thu Jan 14 21:16:38 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Thu, 14 Jan 2010 21:16:38 +0900 Subject: [fess-user 103] Re: =?iso-2022-jp?b?dXNlRGlnZXN0ID0gZmFsc2UgGyRCQF9EaiQsOHobKEI=?= =?iso-2022-jp?b?GyRCJCskSiQkGyhC?= In-Reply-To: <201001141203.AA12227@ea8055.shimadzu.co.jp> References: <201001141203.AA12227@ea8055.shimadzu.co.jp> Message-ID: <201001141216.AA12228@ea8055.shimadzu.co.jp> おっと。修正されたのですね?(本日お昼過ぎのスナップショット) ...ということで meta タグの description があるところは、それ が表示され、それ以外は中身が表示されています。 >柴田@亀岡市です。 > >本日 13時頃のスナップショットで動かしてみてます。 > >今朝のバージョンから出てたのか、このバージョンからか未確認 >ですが、meta タグの description が表示されているものもあり >ました。 > >補足させていただきます。 > >>柴田@亀岡市です。 >> >>... (ピリオド3つ) >> >>...が表示されているか、まったくの空白かのどちらかが多いです。 >> >>でも内容が表示されているところもあるのでちょっと不思議です。 >> >>以前は PDF などファイルが対象のときとそれ以外で分かれていた >>のですが、「...」と空白と内容表示の間にどんな差があってそう >>なっているのかがわかりません。 >> >> >>>菅谷です。 >>> >>>検索結果表示のパフォーマンス向上のため、 >>>検索結果のハイライトの処理を Solr にさせるように >>>最近変更しました。 >>> >>>ダイジェスト部分には何が表示されているで >>>しょうか? (空白、metaタグの description、 >>>コンテンツの一部など) >>> >>>菅谷 >>> >>>2010年1月14日11:53 Masayuki Shibata : >>>> 柴田@亀岡市です。 >>>> >>>> webapps\fess\WEB-INF\classes\app.dicon の >>>> >>>> >>>> false >>>> >>>> >>>> ...の設定が効かなくなったような気がします。 >>>> >>>> 念のためお知らせします。 >>>> >>>> _______________________________________________ >>>> Fess-user mailing list >>>> Fess-user @ lists.sourceforge.jp >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>>_______________________________________________ >>>Fess-user mailing list >>>Fess-user @ lists.sourceforge.jp >>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > ---------- Shibata, Masayuki Manager, Software Development Shimadzu Corporation Analytical Measuring Instruments Division Research & Development Department Telephone: 075-823-1441 Japan Facsimile: 075-823-1365 Japan E-mail: mshibata @ shimadzu.co.jp From mshibata @ shimadzu.co.jp Thu Jan 14 21:23:07 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Thu, 14 Jan 2010 21:23:07 +0900 Subject: [fess-user 104] Re: =?iso-2022-jp?b?dXNlRGlnZXN0ID0gZmFsc2UgGyRCQF9EaiQsOHobKEI=?= =?iso-2022-jp?b?GyRCJCskSiQkGyhC?= In-Reply-To: <201001141216.AA12228@ea8055.shimadzu.co.jp> References: <201001141216.AA12228@ea8055.shimadzu.co.jp> Message-ID: <201001141223.AA12229@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 スミマセン。前言撤回します。 中身、表示されてます。 meta タグ、description が表示されるのは、ラベルだけ指定して 検索式 (文字列) が指定されていないケースです。 以前は、この条件でも中身のトップあたりが表示されていたような 気はするので、変わっているのかも知れませんが、今の動きでも仕 様として成立すると思います。 お騒がせしました。 >おっと。修正されたのですね?(本日お昼過ぎのスナップショット) > >...ということで meta タグの description があるところは、それ >が表示され、それ以外は中身が表示されています。 > >>柴田@亀岡市です。 >> >>本日 13時頃のスナップショットで動かしてみてます。 >> >>今朝のバージョンから出てたのか、このバージョンからか未確認 >>ですが、meta タグの description が表示されているものもあり >>ました。 >> >>補足させていただきます。 >> >>>柴田@亀岡市です。 >>> >>>... (ピリオド3つ) >>> >>>...が表示されているか、まったくの空白かのどちらかが多いです。 >>> >>>でも内容が表示されているところもあるのでちょっと不思議です。 >>> >>>以前は PDF などファイルが対象のときとそれ以外で分かれていた >>>のですが、「...」と空白と内容表示の間にどんな差があってそう >>>なっているのかがわかりません。 >>> >>> >>>>菅谷です。 >>>> >>>>検索結果表示のパフォーマンス向上のため、 >>>>検索結果のハイライトの処理を Solr にさせるように >>>>最近変更しました。 >>>> >>>>ダイジェスト部分には何が表示されているで >>>>しょうか? (空白、metaタグの description、 >>>>コンテンツの一部など) >>>> >>>>菅谷 >>>> >>>>2010年1月14日11:53 Masayuki Shibata : >>>>> 柴田@亀岡市です。 >>>>> >>>>> webapps\fess\WEB-INF\classes\app.dicon の >>>>> >>>>> >>>>> false >>>>> >>>>> >>>>> ...の設定が効かなくなったような気がします。 >>>>> >>>>> 念のためお知らせします。 >>>>> >>>>> _______________________________________________ >>>>> Fess-user mailing list >>>>> Fess-user @ lists.sourceforge.jp >>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >>>> >>>>_______________________________________________ >>>>Fess-user mailing list >>>>Fess-user @ lists.sourceforge.jp >>>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>>_______________________________________________ >>>Fess-user mailing list >>>Fess-user @ lists.sourceforge.jp >>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >---------- >Shibata, Masayuki >Manager, Software Development >Shimadzu Corporation >Analytical Measuring Instruments Division >Research & Development Department >Telephone: 075-823-1441 Japan >Facsimile: 075-823-1365 Japan >E-mail: mshibata @ shimadzu.co.jp > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Thu Jan 14 23:34:03 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Thu, 14 Jan 2010 23:34:03 +0900 Subject: [fess-user 105] Re: =?iso-2022-jp?b?dXNlRGlnZXN0ID0gZmFsc2UgGyRCQF9EaiQsOHobKEI=?= =?iso-2022-jp?b?GyRCJCskSiQkGyhC?= In-Reply-To: <201001141223.AA12229@ea8055.shimadzu.co.jp> References: <201001141216.AA12228@ea8055.shimadzu.co.jp> <201001141223.AA12229@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 混乱させてしまって申し訳ありません…。 そこら辺を整理してコードを更新しました。 仕様についてまとめますと、 今まで - digest は meta の description から取得 - digest が空ならコンテンツ部分からキーワードを ハイライトして表示 これですと、1回の検索でコンテンツ部分を 全取得したりで検索パフォーマンスがよくないので ハイライト部分の処理を Solr に任せるようにしました。 Solr にまかせると、キーワードが見つからない場合に 検索結果のダイジェストが空になってしまう問題に 遭遇したため、以下のように変更しました。 現在 - digest は meta の description から取得する。もし、 空であれば、コンテンツ部分の先頭を digest として 取得する(この場合、「...」を先頭に付加します)。 - 検索結果のダイジェスト部分には、以下の順で 文字列を取得します(空なら次にいきます)。 1) 「...」で始まらないdigest 2) Solr からハイライトされたコンテンツ部分 3) digest 4) 空文字 useDigest=false にすると 1 と 3 がなくなります。 useHighlight=false にすると 2 がなくなります。 1 は meta の description から取得になりますが、 webapps/fess/WEB-INF/classes/s2robot_transformer.dicon で digestXpath を適当な XPATH に変えると値が 変わるので、1 の内容は変更可能です。 検索パフォーマンスもあるので上記のような仕様に しようと思いますが、何かありましたら、お知らせ ください。 shinsuke 2010年1月14日21:23 Masayuki Shibata : > 柴田@亀岡市です。 > > スミマセン。前言撤回します。 > > 中身、表示されてます。 > > meta タグ、description が表示されるのは、ラベルだけ指定して > 検索式 (文字列) が指定されていないケースです。 > > 以前は、この条件でも中身のトップあたりが表示されていたような > 気はするので、変わっているのかも知れませんが、今の動きでも仕 > 様として成立すると思います。 > > お騒がせしました。 > >>おっと。修正されたのですね?(本日お昼過ぎのスナップショット) >> >>...ということで meta タグの description があるところは、それ >>が表示され、それ以外は中身が表示されています。 >> >>>柴田@亀岡市です。 >>> >>>本日 13時頃のスナップショットで動かしてみてます。 >>> >>>今朝のバージョンから出てたのか、このバージョンからか未確認 >>>ですが、meta タグの description が表示されているものもあり >>>ました。 >>> >>>補足させていただきます。 >>> >>>>柴田@亀岡市です。 >>>> >>>>... (ピリオド3つ) >>>> >>>>...が表示されているか、まったくの空白かのどちらかが多いです。 >>>> >>>>でも内容が表示されているところもあるのでちょっと不思議です。 >>>> >>>>以前は PDF などファイルが対象のときとそれ以外で分かれていた >>>>のですが、「...」と空白と内容表示の間にどんな差があってそう >>>>なっているのかがわかりません。 >>>> >>>> >>>>>菅谷です。 >>>>> >>>>>検索結果表示のパフォーマンス向上のため、 >>>>>検索結果のハイライトの処理を Solr にさせるように >>>>>最近変更しました。 >>>>> >>>>>ダイジェスト部分には何が表示されているで >>>>>しょうか? (空白、metaタグの description、 >>>>>コンテンツの一部など) >>>>> >>>>>菅谷 >>>>> >>>>>2010年1月14日11:53 Masayuki Shibata : >>>>>> 柴田@亀岡市です。 >>>>>> >>>>>> webapps\fess\WEB-INF\classes\app.dicon の >>>>>> >>>>>> >>>>>> false >>>>>> >>>>>> >>>>>> ...の設定が効かなくなったような気がします。 >>>>>> >>>>>> 念のためお知らせします。 >>>>>> >>>>>> _______________________________________________ >>>>>> Fess-user mailing list >>>>>> Fess-user @ lists.sourceforge.jp >>>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>>> >>>>> >>>>>_______________________________________________ >>>>>Fess-user mailing list >>>>>Fess-user @ lists.sourceforge.jp >>>>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >>>> >>>>_______________________________________________ >>>>Fess-user mailing list >>>>Fess-user @ lists.sourceforge.jp >>>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>>_______________________________________________ >>>Fess-user mailing list >>>Fess-user @ lists.sourceforge.jp >>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >>---------- >>Shibata, Masayuki >>Manager, Software Development >>Shimadzu Corporation >>Analytical Measuring Instruments Division >>Research & Development Department >>Telephone: 075-823-1441 Japan >>Facsimile: 075-823-1365 Japan >>E-mail: mshibata @ shimadzu.co.jp >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Fri Jan 22 16:38:33 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Fri, 22 Jan 2010 16:38:33 +0900 Subject: [fess-user 106] =?iso-2022-jp?b?V2luZG93cyAbJEIlNSE8JVMlOSRYJE5FUE8/GyhC?= Message-ID: <201001220738.AA12275@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 Zip を解凍して startup.sh/bat 一発起動が特徴の Fess ですが、 Windows Server 運用の場合、最終的にサービスに登録したいとい うことになります。 インストールフォルダの bin に移動して service.bat install fess ...を実行後同フォルダで tomcat6w.exe //ES//fess ...を実行し表示されるサービスのプロパティ画面で Java Option に setenv.bat 記載のオプションを列挙し、Memory pool の Max を 1024 あたりに変えて「適用」ボタンをクリック → Start ...で、安直に動くかな?と思ったのですが、起動に失敗しました。 Java Option を記述せず、サービスインストールしただけの状態な ら起動はできますが、検索をかけると「サイト管理者にお問い合わ せください。」というシステムエラーが出ます。 上記の手順で何か間違い、あるいは抜けがあるようなのですが、お 気づきの点があればご教示いただけると助かります。 From shinsuke @ yahoo.co.jp Fri Jan 22 18:40:24 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 22 Jan 2010 18:40:24 +0900 Subject: [fess-user 107] Re: =?iso-2022-jp?b?V2luZG93cyAbJEIlNSE8JVMlOSRYJE5FUE8/GyhC?= In-Reply-To: <201001220738.AA12275@ea8055.shimadzu.co.jp> References: <201001220738.AA12275@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 情報をありがとうございます。 それはノーチェックでした…。すいません。 ひとまず、Fess 2.0 を C:\Java\fess-server-2.0.0 に インストールして、tomcat6w.exe //ES//fess の Java Options が以下のようになれば、動きました。 (Vistaで試しました) -Dcatalina.base=C:\Java\fess-server-2.0.0 -Dcatalina.home=C:\Java\fess-server-2.0.0 -Djava.endorsed.dirs=C:\Java\fess-server-2.0.0\endorsed -Djava.io.tmpdir=C:\Java\fess-server-2.0.0\temp -Djava.util.logging.manager=org.apache.juli.ClassLoaderLogManager -Djava.util.logging.config.file=C:\Java\fess-server-2.0.0\conf\logging.properties -Dsolr.solr.home=C:\Java\fess-server-2.0.0\solr -Dsolr.data.dir=C:\Java\fess-server-2.0.0\solr\data -Dfess.log.file=C:\Java\fess-server-2.0.0\webapps\fess\WEB-INF\logs\fess.out -Djava.awt.headless=true -XX:+UseGCOverheadLimit -XX:+UseConcMarkSweepGC -XX:+CMSIncrementalMode -XX:+UseTLAB -Dpdfbox.cjk.support=true -XX:MaxPermSize=128m -server はエラーになり起動しないので外しました。 service.bat は後で修正しておきます。 菅谷 2010年1月22日16:38 Masayuki Shibata : > 柴田@亀岡市です。 > > Zip を解凍して startup.sh/bat 一発起動が特徴の Fess ですが、 > Windows Server 運用の場合、最終的にサービスに登録したいとい > うことになります。 > > インストールフォルダの bin に移動して > service.bat install fess > ...を実行後同フォルダで > tomcat6w.exe //ES//fess > ...を実行し表示されるサービスのプロパティ画面で Java Option > に setenv.bat 記載のオプションを列挙し、Memory pool の Max > を 1024 あたりに変えて「適用」ボタンをクリック → Start > > ...で、安直に動くかな?と思ったのですが、起動に失敗しました。 > > Java Option を記述せず、サービスインストールしただけの状態な > ら起動はできますが、検索をかけると「サイト管理者にお問い合わ > せください。」というシステムエラーが出ます。 > > 上記の手順で何か間違い、あるいは抜けがあるようなのですが、お > 気づきの点があればご教示いただけると助かります。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Fri Jan 22 19:07:30 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Fri, 22 Jan 2010 19:07:30 +0900 Subject: [fess-user 108] Re: =?iso-2022-jp?b?V2luZG93cyAbJEIlNSE8JVMlOSRYJE5FUE8/GyhC?= In-Reply-To: References: Message-ID: <201001221007.AA12276@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 おかげさまで無事起動できました。 >-server はエラーになり起動しないので外しました。 原因は、これみたいですね。