[fess-user 761] Re: ウェブクロールについて

Zurück zum Archiv-Index

Shinsuke Sugaya shins****@yahoo*****
2013年 7月 19日 (金) 16:03:14 JST


菅谷です。

> Redirect to URL: http://10.149.4.65/test/

はリダイレクトされているようですが、
ユーザーエージェントなどでコンテンツの
出し分け等をしていませんでしょうか?
おそらく、リダイレクト先のコンテンツを
取得しているとは思われますが、そのコンテンツ内に
リンクがないようにも思われます。

より詳しく取得内容も確認する場合は、
http://fess.codelibs.org/ja/8.0/config/logging.html
にあるクロールの通信内容のログレベルを
debugにすると、クロール内容がコンテンツ
含めて取得されます。そこで、リダイレクト先として
取得されるコンテンツを確認していただけると
良いかと思います。

よろしくお願いいたします。

shinsuke


2013年7月19日 15:54 北端 利行 <toshi****@kccs*****>:
> 菅谷様
>
> ご回答有難う御座います。
>
> 言われたログを確認したのですが、クローリングされているように見えるのですが
> このログでの判断が出来ないのですが、ご教示頂けますでしょうか。
>
> 2013-07-19 14:30:24,610 [main] INFO  org.seasar.framework.container.factory.SingletonS2ContainerFactory - s2-frameworkのバージョンは2.4.46です。
> 2013-07-19 14:30:24,626 [main] INFO  org.seasar.framework.container.factory.SingletonS2ContainerFactory - s2-extensionのバージョンは2.4.46です。
> 2013-07-19 14:30:24,626 [main] INFO  org.seasar.framework.container.factory.SingletonS2ContainerFactory - s2-tigerのバージョンは2.4.46です。
> 2013-07-19 14:31:03,145 [main] INFO  jp.sf.fess.db.allcommon.DBFluteInitializer - ...Initializing DBFlute components
> 2013-07-19 14:31:03,909 [main] INFO  org.apache.solr.client.solrj.impl.HttpClientUtil - Creating new http client, config:maxConnections=128&maxConnectionsPerHost=32&followRedirects=false
> 2013-07-19 14:31:11,086 [main] WARN  org.seasar.framework.container.assembler.BindingTypeShouldDef - org.codelibs.solr.lib.server.interceptor.PreemptiveAuthInterceptorのプロパティ(authScheme)が見つからないので設定をスキップします
> 2013-07-19 14:31:19,214 [main] INFO  org.seasar.robot.db.allcommon.DBFluteInitializer - ...Initializing DBFlute components
> 2013-07-19 14:32:08,638 [main] INFO  org.seasar.framework.container.factory.SingletonS2ContainerFactory - Running on [ENV]product, [DEPLOY MODE]Cool Deploy
> 2013-07-19 14:32:27,923 [main] INFO  jp.sf.fess.exec.Crawler - Starting Crawler..
> 2013-07-19 14:32:29,951 [main] INFO  jp.sf.fess.exec.Crawler - Expired Session Ids: []
> 2013-07-19 14:32:30,918 [Data Crawling Process] INFO  jp.sf.fess.helper.DataIndexHelper - No crawling target urls.
> 2013-07-19 14:32:32,449 [Robot-20130719142925-1-1] INFO  org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: http://10.149.4.65/test/
> 2013-07-19 14:32:32,465 [Robot-20130719142925-1-1] INFO  org.seasar.robot.client.http.HcHttpClient - Checking URL: http://10.149.4.65/robots.txt
> 2013-07-19 14:32:32,559 [Robot-20130719142925-1-1] INFO  org.seasar.robot.helper.impl.LogHelperImpl - Redirect to URL: http://10.149.4.65/test/
> 2013-07-19 14:33:31,125 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. The processing size is 0. The execution time is 47ms.
> 2013-07-19 14:34:27,839 [Web Crawling Process] INFO  jp.sf.fess.helper.WebFsIndexHelper - [EXEC TIME] crawling time: 117467ms
> 2013-07-19 14:34:31,068 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. The processing size is 0. The execution time is 16ms.
> 2013-07-19 14:34:31,083 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - [EXEC TIME] index update time: 78ms
> 2013-07-19 14:34:32,519 [main] INFO  jp.sf.fess.exec.Crawler - [EXEC TIME] index commit time: 1233ms
> 2013-07-19 14:34:32,519 [main] INFO  jp.sf.fess.exec.Crawler - Finished Crawler
>
>
> ご確認宜しくお願い致します。
>
> On Fri, 19 Jul 2013 14:55:07 +0900
> Shinsuke Sugaya <shins****@yahoo*****> wrote:
>
>> 菅谷です。
>>
>> (スパム防止のため、送信にはFessのMLへの登録が必要になります)
>>
>> クロールしたURLは
>> webapps/fess/WEB-INF/logs/fess_crawler.out
>> のログファイルに出力されるので、
>> まずは対象がクロールされたかどうかを
>> 確認していただくのが良いかと思います。
>> よろしくお願いいたします。
>>
>> shinsuke
>>
>>
>> 2013年7月19日 14:28  <fess-****@lists*****>:
>> > From: "北端 利行"
>> > To: fess-****@lists*****
>> > Cc:
>> > Date: Fri, 19 Jul 2013 14:28:14 +0900
>> > Subject: ウェブクロールについて
>> > クロールの正規表現が正常に動作しないためご教示ください。
>> >
>> > 現在ローカルネットワークで2サイトの構築をしており
>> > その2サイトを検索できる様にしたいと考えております。
>> >
>> > クロール設定では以下にて設定してますがtestディレクトリがコミットされません。
>> >
>> >  http://192.168.1.10/test/.*
>> >  http://192.168.1.10/beet/.*
>> >
>> > 以下のアドレスがコミットされて欲しいです。
>> >
>> >  http://192.168.1.10/test/test.php?id=work
>> >
>> > beetディレクトリは以下の様なアドレスなのですが
>> > 正常にコミットされております。
>> > ただtestディレクトリにも同様なアドレスがありますが
>> > コミットされておりません。
>> >
>> >  http://192.168.1.10/beet/login_page.php
>> >  http://192.168.1.10/test/test.php
>> >
>> > 環境は下記となります。
>> >
>> >  Windows2003
>> >  fess-server-8.1.0
>> >  jdk1.7.0_25
>> >
>> > よろしくお願い致します。
>> >
>> >
>
> □□□□□□□□□□□□□□□□□□□□□□□□
>
>  京セラコミュニケーションシステム株式会社
>   ネットワークアウトソーシング事業部
>    京都ネットワークサービス2課
>
>      北端 利行 <toshi****@kccs*****>
>
>         内線:8826-5089 外線:075-623-0562
>
> □□□□□□□□□□□□□ (end of e-mail)□□□
>




Fess-user メーリングリストの案内
Zurück zum Archiv-Index