[fess-user 436] Re: クロールの進捗を知る方法

Zurück zum Archiv-Index

Masayuki Shibata mshib****@shima*****
2011年 3月 15日 (火) 16:39:19 JST


柴田@亀岡市です。

> Windows XP などで確認する限り,fess_crawler.out は
> 普通に作成されていましたが,Windows 2003 環境を
> 構築する余裕がないため,その環境でどうかが確認できて
> いません.クリーンな Fess でも startup.bat で起動して
> クロールしても生成されない感じでしょうか?

クリーン Fess の startup.bat 起動をやってみたところ、
fess_crawler.out は作成されました。

当方、ターゲットは Windows 2003 Server ですが、適宜テストは
localhost (Windows Xp) でやっており、サーバーと同じ条件で起動
したときも fess_crawler.out は作成されませんでしたので、
Windows 2003 は無関係で、クリーンな Fess と当方の状況に差があ
るのだと思います。

> これも考えると,クロール実行のプロセスに渡される
> オプション(Optionsの値たち)がなぜかうまく渡されていない
> ような気もします.

クリーンな Fess (localhost D:\fess-server-4.0.0 から
startup.bat で起動) の方では、Options のログの設定が...

-Dfess.log.file=D:\fess-server-4.0.0\webapps\fess\WEB-INF\logs\fess_crawler.out

...でログに出力されていますが、ターゲットの Fess
(C:\fess-server から Windows サービス起動) では、

-Dfess.log.file=C:\fess-server\webapps\fess\WEB-INF\logs\fess.out

...とログに出されており、ご推察のとおりのような感じです。

...で結局、fess.out のログに fess_crawler.out のものも一緒に
出力されている状態です。

少しずつ設定を詰めていった累積で、どこか変わってしまっている
のかも知れませんね。

クリーンなものと差分をとって調べてみます。


----- Original Message ----- 
From: "Shinsuke Sugaya" <shins****@yahoo*****>
To: <fess-****@lists*****>
Sent: Tuesday, March 15, 2011 2:14 PM
Subject: [fess-user 435] Re:クロールの進捗を知る方法


> 菅谷です.
>
> 情報をありがとうございます.
>
>> しかし残り 1000 前後となったところで上昇が止まり、最終的
>> に完了するのが、さらにそこから12時間ほど先になります。
>
> 何かのドキュメントで処理がつまっているような
> 気もしますが,fess_crawler.out でどこで時間が
> かかるのか見ないと原因特定は難しいです.
>
>> ・全体のうちのどこまで進んだかを知る方法はありますか?
>
> fess_crawler.out でクロールの状況を確認できます.
>
> Windows XP などで確認する限り,fess_crawler.out は
> 普通に作成されていましたが,Windows 2003 環境を
> 構築する余裕がないため,その環境でどうかが確認できて
> いません.クリーンな Fess でも startup.bat で起動して
> クロールしても生成されない感じでしょうか?
>
>> ・その場合、そのログを区別する目印は何でしょうか?
>
> 2011-03-11 11:28:56,914 [Thread-17] INFO
> jp.sf.fess.helper.SystemHelper - Crawler:
> Directory=...
> Options=...-Dfess.log.file=...
>
> という感じで,fess.log.fileのファイルで指定されている
> と思います.特にエラーのようなものは出ないと
> 思います.
>
>> ログを見ると temp フォルダのファイルを消せなかったらしき
>> ワーニングがあり、確かにファイルが大量に残っています。
>
> Fess 4 では(行儀の悪い)依存ライブラリが生成して
> 放置されている一時ファイルも削除できるように
> 上記の Options の java.io.tmpdir で独自の一時ディレクトリを
> 利用して,終了時にそれを削除する形をとっています.
>
> これも考えると,クロール実行のプロセスに渡される
> オプション(Optionsの値たち)がなぜかうまく渡されていない
> ような気もします.
>
> よろしくお願いいたします.
>
> shinsuke
>
>
> 2011年3月15日13:28 Masayuki Shibata <mshib****@shima*****>:
>> 柴田@亀岡市です。
>>
>> うちの運用では、インデックスの作成されるドキュメント数が
>> 約 16000 弱あります。
>>
>> 1000 ドキュメントごとにコミットする設定にしてありますので
>> クロールを開始してから3時間ほどで、システム設定画面の追
>> 加されたドキュメントの数が順調に 14000 ドキュメントまで上
>> がります。
>>
>> しかし残り 1000 前後となったところで上昇が止まり、最終的
>> に完了するのが、さらにそこから12時間ほど先になります。
>>
>> つまり全クロールに15時間ほどかかるのですが、システム設
>> 定の画面を見る限り、いつ頃完了するのか予想がつきません。
>>
>> ・全体のうちのどこまで進んだかを知る方法はありますか?
>>
>> また、相変わらず fess_crawler.out が出力されません。
>>
>> 処理の前半3時間、後半12時間みたいな動きだとすると、こ
>> のログが見られれば見当が付くのかなと思ったのですが、まだ
>> 見られずにおります。
>>
>> クローラー関係のログを分離したものがこれだと言うことは、
>> それを分離する設定が効いてないのであれば、fess.out には、
>> ログが残っているのかも知れません。
>>
>> ・その場合、そのログを区別する目印は何でしょうか?
>>
>> たくさん質問してスミマセン。
>>
>> また、質問ではなくご報告 (上記調査中に判明したこと) です
>> が...
>>
>> ログを見ると temp フォルダのファイルを消せなかったらしき
>> ワーニングがあり、確かにファイルが大量に残っています。
>>
>> また、以下のエラーがログに相当数、残っています。
>> ERROR org.apache.pdfbox.pdmodel.font.PDFont - Error: Could not parse
>> predefined CMAP file for 'Adobe-Japan1-UCS2'
>>
>> Fess 4.0.0 + Windows Server 2003 環境です。
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-****@lists*****
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
> 




Fess-user メーリングリストの案内
Zurück zum Archiv-Index