From bmjungjp @ gmail.com Wed Jul 3 19:56:17 2013 From: bmjungjp @ gmail.com (=?ISO-2022-JP?B?GyRCJTglZyVzJVMlZyVzJWIbKEI=?=) Date: Wed, 3 Jul 2013 19:56:17 +0900 Subject: [fess-user 744] =?iso-2022-jp?b?GyRCJS8lbSE8JWshPyUkJXMlRyUvJTkhPyQ9JE5CPiRLGyhC?= =?iso-2022-jp?b?GyRCJEQkJCRGGyhC?= Message-ID: お世話になります、ジョンです。 早速ですが、 フリー/商用関わらず、以下の機能はできますでしょうか? ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 ・インデクスされたwebページの重複(サイドバナー/Header/Footer以外の)する部分を外した検索はできますか。 それからフリーと商用の違いについて教えて欲しいです。 現在フリーバージョンでサービスを行っていますが、 思った全てのことができなかったので、商用バージョンを検討していますので、 商用のみの機能について詳しく知りたいです。 以上です、よろしくお願い致します。 -- Jung ByungMo bmjungjp @ gmail.com -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: http://lists.sourceforge.jp/mailman/archives/fess-user/attachments/20130703/15ae7ac7/attachment.htm From shinsuke @ yahoo.co.jp Fri Jul 5 09:08:42 2013 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 5 Jul 2013 09:08:42 +0900 Subject: [fess-user 745] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWshPyUkJXMlRyUvJTkhPyQ9JE4bKEI=?= =?iso-2022-jp?b?GyRCQj4kSyREJCQkRhsoQg==?= In-Reply-To: References: Message-ID: 菅谷です。 > ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 s2robot_transformer.diconのcontentXpathなどで XPathで取り込み箇所を指定することで除外して インデックスを生成することができます。 > ・インデクスされたwebページの重複(サイドバナー/Header/Footer以外の)する部分を外した検索はできますか。 インデックスする前に除外する必要があります。 > それからフリーと商用の違いについて教えて欲しいです。 Fess単体で見ると、OSS版と同等ですが、 商用サービスでは要件に応じて、Fessの様々な 拡張ポイントに対して、変更を入れてチューニングして 最適化した状態で提供しています。また、 100万ドキュメントを超える大規模なファイルシステム クロールなどでは別プロダクトと組み合わせて インデックスを作成するなど、Fess以外のものを 含めて提供したりもしています。そのような感じで 要件固有のもの以外はFessにフィードバックされて 今までFess自体が成長してきていると思います。 そういう意味ではOSS版と商用版の違いは 要件に合わせた個別の最適化の対応が異なるかと 思います。 よろしくお願いいたします。 shinsuke 2013年7月3日 19:56 ジョンビョンモ : > お世話になります、ジョンです。 > > 早速ですが、 > フリー/商用関わらず、以下の機能はできますでしょうか? > > ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 > ・インデクスされたwebページの重複(サイドバナー/Header/Footer以外の)する部分を外した検索はできますか。 > > それからフリーと商用の違いについて教えて欲しいです。 > > 現在フリーバージョンでサービスを行っていますが、 > 思った全てのことができなかったので、商用バージョンを検討していますので、 > 商用のみの機能について詳しく知りたいです。 > > 以上です、よろしくお願い致します。 > -- > Jung ByungMo > bmjungjp @ gmail.com > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From bmjungjp @ gmail.com Fri Jul 5 09:19:28 2013 From: bmjungjp @ gmail.com (=?EUC-KR?B?q7ir56vzq9Or56vzq+I=?=) Date: Fri, 5 Jul 2013 09:19:28 +0900 Subject: [fess-user 746] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWshPyUkJXMlRyUvJTkhPyQ9JE4bKEI=?= =?iso-2022-jp?b?GyRCQj4kSyREJCQkRhsoQg==?= In-Reply-To: References: Message-ID: ジョンです。 ご回答、ありがとうござい。 教えて頂いた方法で試してみます。 以上です、よろしくお願いします。 2013? 7? 5? ???? Shinsuke Sugaya?? ??: > 菅谷です。 > > > ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 > > s2robot_transformer.diconのcontentXpathなどで > XPathで取り込み箇所を指定することで除外して > インデックスを生成することができます。 > > > ・インデクスされたwebページの重複(サイドバナー/Header/Footer以外の)する部分を外した検索はできますか。 > > インデックスする前に除外する必要があります。 > > > それからフリーと商用の違いについて教えて欲しいです。 > > Fess単体で見ると、OSS版と同等ですが、 > 商用サービスでは要件に応じて、Fessの様々な > 拡張ポイントに対して、変更を入れてチューニングして > 最適化した状態で提供しています。また、 > 100万ドキュメントを超える大規模なファイルシステム > クロールなどでは別プロダクトと組み合わせて > インデックスを作成するなど、Fess以外のものを > 含めて提供したりもしています。そのような感じで > 要件固有のもの以外はFessにフィードバックされて > 今までFess自体が成長してきていると思います。 > そういう意味ではOSS版と商用版の違いは > 要件に合わせた個別の最適化の対応が異なるかと > 思います。 > > よろしくお願いいたします。 > > shinsuke > > > 2013年7月3日 19:56 ジョンビョンモ >: > > お世話になります、ジョンです。 > > > > 早速ですが、 > > フリー/商用関わらず、以下の機能はできますでしょうか? > > > > ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 > > ・インデクスされたwebページの重複(サイドバナー/Header/Footer以外の)する部分を外した検索はできますか。 > > > > それからフリーと商用の違いについて教えて欲しいです。 > > > > 現在フリーバージョンでサービスを行っていますが、 > > 思った全てのことができなかったので、商用バージョンを検討していますので、 > > 商用のみの機能について詳しく知りたいです。 > > > > 以上です、よろしくお願い致します。 > > -- > > Jung ByungMo > > bmjungjp @ gmail.com > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > -- Jung ByungMo bmjungjp @ gmail.com 080 - 4432 - 3380(Au) -------------- next part -------------- HTML$B$NE:IU%U%!%$%k$rJ]4I$7$^$7$?(B... URL: http://lists.sourceforge.jp/mailman/archives/fess-user/attachments/20130705/fa89573f/attachment.htm From monyopoly @ hotmail.co.jp Mon Jul 8 12:15:06 2013 From: monyopoly @ hotmail.co.jp (=?utf-8?B?bW9ub2xpdGgg44Oi44OO44Oq44K5?=) Date: Mon, 8 Jul 2013 12:15:06 +0900 Subject: [fess-user 747] =?iso-2022-jp?b?Q29tbWFuZEV4dHJhY3RvchskQiRIGyhCeGRjbzJ0eHQ=?= =?iso-2022-jp?b?GyRCJE5PIjdIJEskRCQkJEYbKEI=?= Message-ID: お世話になっております。やまです。 S2RobotのCommandExtractorからxdoc2txtをコマンドライン実行し、 テキスト抽出を検討しております。 (xdoc2txtがi filterを使用することで、xlsx形式の  テキストボックス内文字列抽出が行えるためです。) 下記トピックのとおり、s2robot_extractor.diconの設定を行ったのですが、 インデックスにはテキストボックス内文字列は出力されておらず検索できませんでした。 (セル内の文字列はインデックス化されおり、TikaExtractorで抽出された模様) [fess-user 452] Re: CommandExtractor 仕様について提案 http://sourceforge.jp/projects/fess/lists/archive/user/2011-March/000451.html トピックにあるCommandExtractorの一時ファイルで拡張子付与(.txt)に対応した S2Robot「s2-robot-0.5.1-20110330.192026-5.jar」は現在存在しないリンクとなっており、 入手できませんでした。 以下サイトに該当のjarは見つかりませんでした。 http://maven.seasar.org/maven2-snapshot/org/seasar/robot/s2-robot/0.5.1-SNAPSHOT/ 「s2-robot-0.5.1-20110330.192026-5.jar」の入手方法 or 提供頂く事は可能でしょうか? また、その他必要な設定ありましたら教えて頂きたいです。 宜しくお願い致します。 ■s2robot_extractor.diconの設定内容 "cmd /c xdoc2txt -i $INPUT_FILE > $OUTPUT_FILE" "UTF-8" ".txt" { "application/vnd.openxmlformats-officedocument.presentationml.presentation", "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet", "application/vnd.ms-excel.sheet.macroenabled.12", "application/vnd.openxmlformats-officedocument.wordprocessingml.document" } officeCmdExtractor From bmjungjp @ gmail.com Tue Jul 9 10:11:36 2013 From: bmjungjp @ gmail.com (=?ISO-2022-JP?B?GyRCJTglZyVzJVMlZyVzJWIbKEI=?=) Date: Tue, 9 Jul 2013 10:11:36 +0900 Subject: [fess-user 748] =?iso-2022-jp?b?GyRCSVRANSUiJS8lOyU5JE5KczlwGyhC?= Message-ID: お世話になっております。 ジョンです。 先日、fessをサービスしているサーバー会社から以下の連絡がありました。 ----------- 外部サーバーに1分25秒の間に25回程80番ポート(httpd)へのアクセスを行ったという警告 ----------- 原因は以下のプロセスですとの報告がありました。 ----------- java -jar /usr/local/fess-server-8.1.0/webapps/tomcatload/WEB-INF/cataca.jar ----------- 何かご存知でしょうか? fessはダウンロードしたそのままの状態です。 以上です、よろしくお願い致します。 -- Jung ByungMo bmjungjp @ gmail.com -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: http://lists.sourceforge.jp/mailman/archives/fess-user/attachments/20130709/80f29548/attachment.htm From shinsuke @ yahoo.co.jp Tue Jul 9 12:04:43 2013 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Tue, 9 Jul 2013 12:04:43 +0900 Subject: [fess-user 749] Re: =?iso-2022-jp?b?GyRCSVRANSUiJS8lOyU5JE5KczlwGyhC?= In-Reply-To: References: Message-ID: 菅谷です。 Fessの配布物にtomcatloadなどのようなものは 含まれませんし、cataca.jarのようなものも ありませんので、構築された方にどのように 構築したのかなどをご確認ください。 よろしくお願いいたします。 shinsuke 2013年7月9日 10:11 ジョンビョンモ : > お世話になっております。 > ジョンです。 > > 先日、fessをサービスしているサーバー会社から以下の連絡がありました。 > ----------- > 外部サーバーに1分25秒の間に25回程80番ポート(httpd)へのアクセスを行ったという警告 > ----------- > > 原因は以下のプロセスですとの報告がありました。 > ----------- > java -jar /usr/local/fess-server-8.1.0/webapps/tomcatload/WEB-INF/cataca.jar > ----------- > > 何かご存知でしょうか? > fessはダウンロードしたそのままの状態です。 > > 以上です、よろしくお願い致します。 > -- > Jung ByungMo > bmjungjp @ gmail.com > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From bmjungjp @ gmail.com Tue Jul 9 12:15:41 2013 From: bmjungjp @ gmail.com (=?ISO-2022-JP?B?GyRCJTglZyVzJVMlZyVzJWIbKEI=?=) Date: Tue, 9 Jul 2013 12:15:41 +0900 Subject: [fess-user 750] Re: =?iso-2022-jp?b?GyRCSVRANSUiJS8lOyU5JE5KczlwGyhC?= In-Reply-To: References: Message-ID: 菅谷様。 お世話になっております。 ジョンです。 ご回答、ありがとうございます。 サーバー会社に問い合わせしてみます。 以上です、よろしくお願い致します。 2013年7月9日 12:04 Shinsuke Sugaya : > 菅谷です。 > > Fessの配布物にtomcatloadなどのようなものは > 含まれませんし、cataca.jarのようなものも > ありませんので、構築された方にどのように > 構築したのかなどをご確認ください。 > > よろしくお願いいたします。 > > shinsuke > > > > > 2013年7月9日 10:11 ジョンビョンモ : > > お世話になっております。 > > ジョンです。 > > > > 先日、fessをサービスしているサーバー会社から以下の連絡がありました。 > > ----------- > > 外部サーバーに1分25秒の間に25回程80番ポート(httpd)へのアクセスを行ったという警告 > > ----------- > > > > 原因は以下のプロセスですとの報告がありました。 > > ----------- > > java -jar > /usr/local/fess-server-8.1.0/webapps/tomcatload/WEB-INF/cataca.jar > > ----------- > > > > 何かご存知でしょうか? > > fessはダウンロードしたそのままの状態です。 > > > > 以上です、よろしくお願い致します。 > > -- > > Jung ByungMo > > bmjungjp @ gmail.com > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: http://lists.sourceforge.jp/mailman/archives/fess-user/attachments/20130709/f475c5e6/attachment.htm From bmjungjp @ gmail.com Tue Jul 9 13:30:39 2013 From: bmjungjp @ gmail.com (=?ISO-2022-JP?B?GyRCJTglZyVzJVMlZyVzJWIbKEI=?=) Date: Tue, 9 Jul 2013 13:30:39 +0900 Subject: [fess-user 751] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWshPyUkJXMlRyUvJTkhPyQ9JE4bKEI=?= =?iso-2022-jp?b?GyRCQj4kSyREJCQkRhsoQg==?= In-Reply-To: References: Message-ID: 菅谷様。 ジョンです。 >> ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 > >s2robot_transformer.diconのcontentXpathなどで >XPathで取り込み箇所を指定することで除外して >インデックスを生成することができます。 上記についてですが ------ "/HTML/BODY" ------ を以下に修正して、クーロルしました。 ------ "/HTML/BODY/ARTICLE" ------ インデクスはされていますが、キーワードを入力し検索すると1件もヒットしないです。 どうすればできますでしょうか? 以上です、よろしくお願いします。 2013年7月5日 9:08 Shinsuke Sugaya : > 菅谷です。 > > > ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 > > s2robot_transformer.diconのcontentXpathなどで > XPathで取り込み箇所を指定することで除外して > インデックスを生成することができます。 > > > ・インデクスされたwebページの重複(サイドバナー/Header/Footer以外の)する部分を外した検索はできますか。 > > インデックスする前に除外する必要があります。 > > > それからフリーと商用の違いについて教えて欲しいです。 > > Fess単体で見ると、OSS版と同等ですが、 > 商用サービスでは要件に応じて、Fessの様々な > 拡張ポイントに対して、変更を入れてチューニングして > 最適化した状態で提供しています。また、 > 100万ドキュメントを超える大規模なファイルシステム > クロールなどでは別プロダクトと組み合わせて > インデックスを作成するなど、Fess以外のものを > 含めて提供したりもしています。そのような感じで > 要件固有のもの以外はFessにフィードバックされて > 今までFess自体が成長してきていると思います。 > そういう意味ではOSS版と商用版の違いは > 要件に合わせた個別の最適化の対応が異なるかと > 思います。 > > よろしくお願いいたします。 > > shinsuke > > > 2013年7月3日 19:56 ジョンビョンモ : > > お世話になります、ジョンです。 > > > > 早速ですが、 > > フリー/商用関わらず、以下の機能はできますでしょうか? > > > > ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 > > ・インデクスされたwebページの重複(サイドバナー/Header/Footer以外の)する部分を外した検索はできますか。 > > > > それからフリーと商用の違いについて教えて欲しいです。 > > > > 現在フリーバージョンでサービスを行っていますが、 > > 思った全てのことができなかったので、商用バージョンを検討していますので、 > > 商用のみの機能について詳しく知りたいです。 > > > > 以上です、よろしくお願い致します。 > > -- > > Jung ByungMo > > bmjungjp @ gmail.com > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: http://lists.sourceforge.jp/mailman/archives/fess-user/attachments/20130709/f6df79ca/attachment.htm From shinsuke @ yahoo.co.jp Tue Jul 9 21:42:37 2013 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Tue, 9 Jul 2013 21:42:37 +0900 Subject: [fess-user 752] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWshPyUkJXMlRyUvJTkhPyQ9JE4bKEI=?= =?iso-2022-jp?b?GyRCQj4kSyREJCQkRhsoQg==?= In-Reply-To: References: Message-ID: 菅谷です。 ログなど見て調べないとわかりませんが "//ARTICLE" などとして、試してみると良いかもしれません。 よろしくお願いいたします。 shinsuke 2013年7月9日 13:30 ジョンビョンモ : > 菅谷様。 > ジョンです。 > >>> ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 >> >>s2robot_transformer.diconのcontentXpathなどで >>XPathで取り込み箇所を指定することで除外して >>インデックスを生成することができます。 > > 上記についてですが > ------ > "/HTML/BODY" > ------ > を以下に修正して、クーロルしました。 > ------ > "/HTML/BODY/ARTICLE" > ------ > インデクスはされていますが、キーワードを入力し検索すると1件もヒットしないです。 > どうすればできますでしょうか? > > 以上です、よろしくお願いします。 > > 2013年7月5日 9:08 Shinsuke Sugaya : > >> 菅谷です。 >> >> > ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 >> >> s2robot_transformer.diconのcontentXpathなどで >> XPathで取り込み箇所を指定することで除外して >> インデックスを生成することができます。 >> >> > ・インデクスされたwebページの重複(サイドバナー/Header/Footer以外の)する部分を外した検索はできますか。 >> >> インデックスする前に除外する必要があります。 >> >> > それからフリーと商用の違いについて教えて欲しいです。 >> >> Fess単体で見ると、OSS版と同等ですが、 >> 商用サービスでは要件に応じて、Fessの様々な >> 拡張ポイントに対して、変更を入れてチューニングして >> 最適化した状態で提供しています。また、 >> 100万ドキュメントを超える大規模なファイルシステム >> クロールなどでは別プロダクトと組み合わせて >> インデックスを作成するなど、Fess以外のものを >> 含めて提供したりもしています。そのような感じで >> 要件固有のもの以外はFessにフィードバックされて >> 今までFess自体が成長してきていると思います。 >> そういう意味ではOSS版と商用版の違いは >> 要件に合わせた個別の最適化の対応が異なるかと >> 思います。 >> >> よろしくお願いいたします。 >> >> shinsuke >> >> >> 2013年7月3日 19:56 ジョンビョンモ : >> > お世話になります、ジョンです。 >> > >> > 早速ですが、 >> > フリー/商用関わらず、以下の機能はできますでしょうか? >> > >> > ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 >> > ・インデクスされたwebページの重複(サイドバナー/Header/Footer以外の)する部分を外した検索はできますか。 >> > >> > それからフリーと商用の違いについて教えて欲しいです。 >> > >> > 現在フリーバージョンでサービスを行っていますが、 >> > 思った全てのことができなかったので、商用バージョンを検討していますので、 >> > 商用のみの機能について詳しく知りたいです。 >> > >> > 以上です、よろしくお願い致します。 >> > -- >> > Jung ByungMo >> > bmjungjp @ gmail.com >> > >> > _______________________________________________ >> > Fess-user mailing list >> > Fess-user @ lists.sourceforge.jp >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From bmjungjp @ gmail.com Wed Jul 10 14:45:47 2013 From: bmjungjp @ gmail.com (=?ISO-2022-JP?B?GyRCJTglZyVzJVMlZyVzJWIbKEI=?=) Date: Wed, 10 Jul 2013 14:45:47 +0900 Subject: [fess-user 753] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWshPyUkJXMlRyUvJTkhPyQ9JE4bKEI=?= =?iso-2022-jp?b?GyRCQj4kSyREJCQkRhsoQg==?= In-Reply-To: References: Message-ID: 菅谷様。 お世話になっております、ジョンです。 教えて頂いた方法で解決できました。 ありがとうございます。 もう一つ質問ですが、 html5仕様とそうではないサイトが混在しているので、 クロール対象エリアを複数してはできないでしょうか? 希望エリアは以下の2つです。 idがmainの共通点があります。 -------- "//ARTICLE[@id='main']" "//DIV[@id='main']" -------- 以上です、よろしくお願い致します。 2013年7月9日 21:42 Shinsuke Sugaya : > 菅谷です。 > > ログなど見て調べないとわかりませんが > "//ARTICLE" > などとして、試してみると良いかもしれません。 > よろしくお願いいたします。 > > shinsuke > > > 2013年7月9日 13:30 ジョンビョンモ : > > 菅谷様。 > > ジョンです。 > > > >>> ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 > >> > >>s2robot_transformer.diconのcontentXpathなどで > >>XPathで取り込み箇所を指定することで除外して > >>インデックスを生成することができます。 > > > > 上記についてですが > > ------ > > "/HTML/BODY" > > ------ > > を以下に修正して、クーロルしました。 > > ------ > > "/HTML/BODY/ARTICLE" > > ------ > > インデクスはされていますが、キーワードを入力し検索すると1件もヒットしないです。 > > どうすればできますでしょうか? > > > > 以上です、よろしくお願いします。 > > > > 2013年7月5日 9:08 Shinsuke Sugaya : > > > >> 菅谷です。 > >> > >> > ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 > >> > >> s2robot_transformer.diconのcontentXpathなどで > >> XPathで取り込み箇所を指定することで除外して > >> インデックスを生成することができます。 > >> > >> > ・インデクスされたwebページの重複(サイドバナー/Header/Footer以外の)する部分を外した検索はできますか。 > >> > >> インデックスする前に除外する必要があります。 > >> > >> > それからフリーと商用の違いについて教えて欲しいです。 > >> > >> Fess単体で見ると、OSS版と同等ですが、 > >> 商用サービスでは要件に応じて、Fessの様々な > >> 拡張ポイントに対して、変更を入れてチューニングして > >> 最適化した状態で提供しています。また、 > >> 100万ドキュメントを超える大規模なファイルシステム > >> クロールなどでは別プロダクトと組み合わせて > >> インデックスを作成するなど、Fess以外のものを > >> 含めて提供したりもしています。そのような感じで > >> 要件固有のもの以外はFessにフィードバックされて > >> 今までFess自体が成長してきていると思います。 > >> そういう意味ではOSS版と商用版の違いは > >> 要件に合わせた個別の最適化の対応が異なるかと > >> 思います。 > >> > >> よろしくお願いいたします。 > >> > >> shinsuke > >> > >> > >> 2013年7月3日 19:56 ジョンビョンモ : > >> > お世話になります、ジョンです。 > >> > > >> > 早速ですが、 > >> > フリー/商用関わらず、以下の機能はできますでしょうか? > >> > > >> > ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 > >> > ・インデクスされたwebページの重複(サイドバナー/Header/Footer以外の)する部分を外した検索はできますか。 > >> > > >> > それからフリーと商用の違いについて教えて欲しいです。 > >> > > >> > 現在フリーバージョンでサービスを行っていますが、 > >> > 思った全てのことができなかったので、商用バージョンを検討していますので、 > >> > 商用のみの機能について詳しく知りたいです。 > >> > > >> > 以上です、よろしくお願い致します。 > >> > -- > >> > Jung ByungMo > >> > bmjungjp @ gmail.com > >> > > >> > _______________________________________________ > >> > Fess-user mailing list > >> > Fess-user @ lists.sourceforge.jp > >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> > > >> > >> _______________________________________________ > >> Fess-user mailing list > >> Fess-user @ lists.sourceforge.jp > >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: http://lists.sourceforge.jp/mailman/archives/fess-user/attachments/20130710/1293e417/attachment.htm From shinsuke @ yahoo.co.jp Fri Jul 12 19:07:42 2013 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 12 Jul 2013 19:07:42 +0900 Subject: [fess-user 754] Re: =?iso-2022-jp?b?GyRCJS8lbSE8JWshPyUkJXMlRyUvJTkhPyQ9JE4bKEI=?= =?iso-2022-jp?b?GyRCQj4kSyREJCQkRhsoQg==?= In-Reply-To: References: Message-ID: 菅谷です。 XPathを駆使していただくしかないのですが、 そのような状況でしたら、 "//*[@id='main']" という感じでいかがでしょうか? よろしくお願いいたします。 shinsuke 2013年7月10日 14:45 ジョンビョンモ : > 菅谷様。 > お世話になっております、ジョンです。 > > 教えて頂いた方法で解決できました。 > ありがとうございます。 > > もう一つ質問ですが、 > html5仕様とそうではないサイトが混在しているので、 > クロール対象エリアを複数してはできないでしょうか? > > 希望エリアは以下の2つです。 > idがmainの共通点があります。 > -------- > "//ARTICLE[@id='main']" > "//DIV[@id='main']" > -------- > > 以上です、よろしくお願い致します。 > > 2013年7月9日 21:42 Shinsuke Sugaya : > >> 菅谷です。 >> >> ログなど見て調べないとわかりませんが >> "//ARTICLE" >> などとして、試してみると良いかもしれません。 >> よろしくお願いいたします。 >> >> shinsuke >> >> >> 2013年7月9日 13:30 ジョンビョンモ : >> > 菅谷様。 >> > ジョンです。 >> > >> >>> ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 >> >> >> >>s2robot_transformer.diconのcontentXpathなどで >> >>XPathで取り込み箇所を指定することで除外して >> >>インデックスを生成することができます。 >> > >> > 上記についてですが >> > ------ >> > "/HTML/BODY" >> > ------ >> > を以下に修正して、クーロルしました。 >> > ------ >> > "/HTML/BODY/ARTICLE" >> > ------ >> > インデクスはされていますが、キーワードを入力し検索すると1件もヒットしないです。 >> > どうすればできますでしょうか? >> > >> > 以上です、よろしくお願いします。 >> > >> > 2013年7月5日 9:08 Shinsuke Sugaya : >> > >> >> 菅谷です。 >> >> >> >> > ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 >> >> >> >> s2robot_transformer.diconのcontentXpathなどで >> >> XPathで取り込み箇所を指定することで除外して >> >> インデックスを生成することができます。 >> >> >> >> > ・インデクスされたwebページの重複(サイドバナー/Header/Footer以外の)する部分を外した検索はできますか。 >> >> >> >> インデックスする前に除外する必要があります。 >> >> >> >> > それからフリーと商用の違いについて教えて欲しいです。 >> >> >> >> Fess単体で見ると、OSS版と同等ですが、 >> >> 商用サービスでは要件に応じて、Fessの様々な >> >> 拡張ポイントに対して、変更を入れてチューニングして >> >> 最適化した状態で提供しています。また、 >> >> 100万ドキュメントを超える大規模なファイルシステム >> >> クロールなどでは別プロダクトと組み合わせて >> >> インデックスを作成するなど、Fess以外のものを >> >> 含めて提供したりもしています。そのような感じで >> >> 要件固有のもの以外はFessにフィードバックされて >> >> 今までFess自体が成長してきていると思います。 >> >> そういう意味ではOSS版と商用版の違いは >> >> 要件に合わせた個別の最適化の対応が異なるかと >> >> 思います。 >> >> >> >> よろしくお願いいたします。 >> >> >> >> shinsuke >> >> >> >> >> >> 2013年7月3日 19:56 ジョンビョンモ : >> >> > お世話になります、ジョンです。 >> >> > >> >> > 早速ですが、 >> >> > フリー/商用関わらず、以下の機能はできますでしょうか? >> >> > >> >> > ・webページの本文のみ(サイドバナー/Header/Footer以外の)のクロールはできますか。 >> >> > ・インデクスされたwebページの重複(サイドバナー/Header/Footer以外の)する部分を外した検索はできますか。 >> >> > >> >> > それからフリーと商用の違いについて教えて欲しいです。 >> >> > >> >> > 現在フリーバージョンでサービスを行っていますが、 >> >> > 思った全てのことができなかったので、商用バージョンを検討していますので、 >> >> > 商用のみの機能について詳しく知りたいです。 >> >> > >> >> > 以上です、よろしくお願い致します。 >> >> > -- >> >> > Jung ByungMo >> >> > bmjungjp @ gmail.com >> >> > >> >> > _______________________________________________ >> >> > Fess-user mailing list >> >> > Fess-user @ lists.sourceforge.jp >> >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >> > >> >> >> >> _______________________________________________ >> >> Fess-user mailing list >> >> Fess-user @ lists.sourceforge.jp >> >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >> > >> > >> > _______________________________________________ >> > Fess-user mailing list >> > Fess-user @ lists.sourceforge.jp >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Fri Jul 12 21:43:39 2013 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 12 Jul 2013 21:43:39 +0900 Subject: [fess-user 755] Re: =?iso-2022-jp?b?Q29tbWFuZEV4dHJhY3RvchskQiRIGyhCeGRjbzJ0eHQ=?= =?iso-2022-jp?b?GyRCJE5PIjdIJEskRCQkJEYbKEI=?= In-Reply-To: References: Message-ID: 菅谷です。 SNAPSHOTバージョンのjarファイルは長期的に 管理していませんので http://maven.seasar.org/maven2/org/seasar/robot/s2-robot/0.5.1/ を利用していただければ良いかと思います。 よろしくお願いいたします。 shinsuke 2013年7月8日 12:15 monolith モノリス : > お世話になっております。やまです。 > > S2RobotのCommandExtractorからxdoc2txtをコマンドライン実行し、 > テキスト抽出を検討しております。 > (xdoc2txtがi filterを使用することで、xlsx形式の >  テキストボックス内文字列抽出が行えるためです。) > > 下記トピックのとおり、s2robot_extractor.diconの設定を行ったのですが、 > インデックスにはテキストボックス内文字列は出力されておらず検索できませんでした。 > (セル内の文字列はインデックス化されおり、TikaExtractorで抽出された模様) > > [fess-user 452] Re: CommandExtractor 仕様について提案 > http://sourceforge.jp/projects/fess/lists/archive/user/2011-March/000451.html > > トピックにあるCommandExtractorの一時ファイルで拡張子付与(.txt)に対応した > S2Robot「s2-robot-0.5.1-20110330.192026-5.jar」は現在存在しないリンクとなっており、 > 入手できませんでした。 > > 以下サイトに該当のjarは見つかりませんでした。 > http://maven.seasar.org/maven2-snapshot/org/seasar/robot/s2-robot/0.5.1-SNAPSHOT/ > > > 「s2-robot-0.5.1-20110330.192026-5.jar」の入手方法 or 提供頂く事は可能でしょうか? > また、その他必要な設定ありましたら教えて頂きたいです。 > 宜しくお願い致します。 > > > ■s2robot_extractor.diconの設定内容 > > "http://www.seasar.org/dtd/components24.dtd"> > > > > > "cmd /c xdoc2txt -i $INPUT_FILE > $OUTPUT_FILE" > "UTF-8" > ".txt" > > > > { > "application/vnd.openxmlformats-officedocument.presentationml.presentation", > "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet", > "application/vnd.ms-excel.sheet.macroenabled.12", > "application/vnd.openxmlformats-officedocument.wordprocessingml.document" > } > officeCmdExtractor > > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user From monyopoly @ hotmail.co.jp Fri Jul 12 23:47:34 2013 From: monyopoly @ hotmail.co.jp (=?utf-8?B?bW9ub2xpdGgg44Oi44OO44Oq44K5?=) Date: Fri, 12 Jul 2013 23:47:34 +0900 Subject: [fess-user 756] Re: =?iso-2022-jp?b?Q29tbWFuZEV4dHJhY3RvchskQiRIGyhCeGRjbzJ0eHQ=?= =?iso-2022-jp?b?GyRCJE5PIjdIJEskRCQkJEYbKEI=?= In-Reply-To: References: Message-ID: お世話になっております。やまです。 お忙しいところ、ご回答ありがとうございます。 教えていただいた箇所よりダウンロードし、 0.5.7のjarを以下3つと差し換えました。 s2-robot-0.5.1.jar s2-robot-db-0.5.1.jar s2-robot-db-h2-0.5.1.jar しかし、クロール時にインデックスが作成されず、 fess.outに以下エラーが出力されました。(文字化けは無視してください) Processed: C:/fess/fess-server/webapps/fess/WEB-INF/db/robot.h2.db Exception in thread "Robot-20130712223500-1" org.seasar.framework.beans.PropertyNotFoundRuntimeException: [ESSR0065]?N???X(jp.sf.fess.robot.FessS2RobotThread)??v???p?e?B(noWaitOnFolder)????????????? at org.seasar.framework.beans.impl.BeanDescImpl.getPropertyDesc(BeanDescImpl.java:137) at org.seasar.framework.container.assembler.AccessTypePropertyDef.bind(AccessTypePropertyDef.java:48) at org.seasar.framework.container.assembler.AccessTypePropertyDef.bind(AccessTypePropertyDef.java:41) at org.seasar.framework.container.assembler.AutoPropertyAssembler.assemble(AutoPropertyAssembler.java:56) at org.seasar.framework.container.deployer.PrototypeComponentDeployer.deploy(PrototypeComponentDeployer.java:43) at org.seasar.framework.container.impl.ComponentDefImpl.getComponent(ComponentDefImpl.java:111) at org.seasar.framework.container.impl.S2ContainerImpl.getComponent(S2ContainerImpl.java:129) at org.seasar.robot.S2Robot.run(S2Robot.java:209) at java.lang.Thread.run(Thread.java:722) WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked. WARN: Please see http://www.slf4j.org/codes.html#release for an explanation. s2robot 0.5.1にはnoWaitOnFolderのプロパティが無くDIできないと考え、 s2robot_db.diconの true を削除すると以下ログが出力されました。 Processed: C:/fess/fess-server/webapps/fess/WEB-INF/db/robot.h2.db Exception in thread "Robot-20130712224331-1" org.seasar.framework.container.ComponentNotFoundRuntimeException: [ESSR0046]?R???|?[?l???g(robotThread)????????????? at org.seasar.framework.container.impl.S2ContainerBehavior$DefaultProvider.acquireFromGetComponentDef(S2ContainerBehavior.java:165) at org.seasar.framework.container.impl.S2ContainerBehavior$DefaultProvider.acquireFromGetComponent(S2ContainerBehavior.java:158) at org.seasar.framework.container.impl.S2ContainerBehavior.acquireFromGetComponent(S2ContainerBehavior.java:62) at org.seasar.framework.container.impl.S2ContainerImpl.getComponent(S2ContainerImpl.java:124) at org.seasar.robot.S2Robot.run(S2Robot.java:209) at java.lang.Thread.run(Thread.java:722) WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked. WARN: Please see http://www.slf4j.org/codes.html#release for an explanation. 今度はrobotThreadを削除したことにより、robotThreadが見つからないエラーとなってしまいました。 fess 8.1.0ではs2robot 0.5.1を動作させるために、有効な設定などありますでしょうか? またs2robot 0.5.1が動作する(しそうな)fessのバージョンなどありましたら 教えていただけないでしょうか。 お忙しいところ申し訳ありませんが宜しくお願い致します。 以上 2013/07/12 21:43、"Shinsuke Sugaya" のメッセージ: 菅谷です。 SNAPSHOTバージョンのjarファイルは長期的に 管理していませんので http://maven.seasar.org/maven2/org/seasar/robot/s2-robot/0.5.1/ を利用していただければ良いかと思います。 よろしくお願いいたします。 shinsuke 2013年7月8日 12:15 monolith モノリス : > お世話になっております。やまです。 > > S2RobotのCommandExtractorからxdoc2txtをコマンドライン実行し、 > テキスト抽出を検討しております。 > (xdoc2txtがi filterを使用することで、xlsx形式の >  テキストボックス内文字列抽出が行えるためです。) > > 下記トピックのとおり、s2robot_extractor.diconの設定を行ったのですが、 > インデックスにはテキストボックス内文字列は出力されておらず検索できませんでした。 > (セル内の文字列はインデックス化されおり、TikaExtractorで抽出された模様) > > [fess-user 452] Re: CommandExtractor 仕様について提案 > http://sourceforge.jp/projects/fess/lists/archive/user/2011-March/000451.html > > トピックにあるCommandExtractorの一時ファイルで拡張子付与(.txt)に対応した > S2Robot「s2-robot-0.5.1-20110330.192026-5.jar」は現在存在しないリンクとなっており、 > 入手できませんでした。 > > 以下サイトに該当のjarは見つかりませんでした。 > http://maven.seasar.org/maven2-snapshot/org/seasar/robot/s2-robot/0.5.1-SNAPSHOT/ > > > 「s2-robot-0.5.1-20110330.192026-5.jar」の入手方法 or 提供頂く事は可能でしょうか? > また、その他必要な設定ありましたら教えて頂きたいです。 > 宜しくお願い致します。 > > > ■s2robot_extractor.diconの設定内容 > > "http://www.seasar.org/dtd/components24.dtd"> > > > > > "cmd /c xdoc2txt -i $INPUT_FILE > $OUTPUT_FILE" > "UTF-8" > ".txt" > > > > { > "application/vnd.openxmlformats-officedocument.presentationml.presentation", > "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet", > "application/vnd.ms-excel.sheet.macroenabled.12", > "application/vnd.openxmlformats-officedocument.wordprocessingml.document" > } > officeCmdExtractor > > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user _______________________________________________ Fess-user mailing list Fess-user @ lists.sourceforge.jp http://lists.sourceforge.jp/mailman/listinfo/fess-user From shinsuke @ yahoo.co.jp Sat Jul 13 08:25:06 2013 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Sat, 13 Jul 2013 08:25:06 +0900 Subject: [fess-user 757] Re: =?iso-2022-jp?b?Q29tbWFuZEV4dHJhY3RvchskQiRIGyhCeGRjbzJ0eHQ=?= =?iso-2022-jp?b?GyRCJE5PIjdIJEskRCQkJEYbKEI=?= In-Reply-To: References: Message-ID: 菅谷です。 Fessに含まれるS2Robotのバージョンは より高いものに差し替えるのは動くと思いますが 低いものに下げると動かないと思います。 また、0.5.1に入れてある修正はそれ以上の バージョンには含まれているので、S2Robotの バージョンを下げる必要はないと思います。 設定で気になるところは "cmd /c xdoc2txt -i $INPUT_FILE > $OUTPUT_FILE" のコマンド内の>が>のような気もします。 あとは、ログをDEBUGで出力してみて確認など するしかないかと思います。 よろしくお願いいたします。 shinsuke 2013年7月12日 23:47 monolith モノリス : > お世話になっております。やまです。 > > お忙しいところ、ご回答ありがとうございます。 > 教えていただいた箇所よりダウンロードし、 > 0.5.7のjarを以下3つと差し換えました。 > > s2-robot-0.5.1.jar > s2-robot-db-0.5.1.jar > s2-robot-db-h2-0.5.1.jar > > しかし、クロール時にインデックスが作成されず、 > fess.outに以下エラーが出力されました。(文字化けは無視してください) > > Processed: C:/fess/fess-server/webapps/fess/WEB-INF/db/robot.h2.db > Exception in thread "Robot-20130712223500-1" org.seasar.framework.beans.PropertyNotFoundRuntimeException: [ESSR0065]?N???X(jp.sf.fess.robot.FessS2RobotThread)??v???p?e?B(noWaitOnFolder)????????????? > at org.seasar.framework.beans.impl.BeanDescImpl.getPropertyDesc(BeanDescImpl.java:137) > at org.seasar.framework.container.assembler.AccessTypePropertyDef.bind(AccessTypePropertyDef.java:48) > at org.seasar.framework.container.assembler.AccessTypePropertyDef.bind(AccessTypePropertyDef.java:41) > at org.seasar.framework.container.assembler.AutoPropertyAssembler.assemble(AutoPropertyAssembler.java:56) > at org.seasar.framework.container.deployer.PrototypeComponentDeployer.deploy(PrototypeComponentDeployer.java:43) > at org.seasar.framework.container.impl.ComponentDefImpl.getComponent(ComponentDefImpl.java:111) > at org.seasar.framework.container.impl.S2ContainerImpl.getComponent(S2ContainerImpl.java:129) > at org.seasar.robot.S2Robot.run(S2Robot.java:209) > at java.lang.Thread.run(Thread.java:722) > WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked. > WARN: Please see http://www.slf4j.org/codes.html#release for an explanation. > > > s2robot 0.5.1にはnoWaitOnFolderのプロパティが無くDIできないと考え、 > s2robot_db.diconの > > true > > を削除すると以下ログが出力されました。 > > Processed: C:/fess/fess-server/webapps/fess/WEB-INF/db/robot.h2.db > Exception in thread "Robot-20130712224331-1" org.seasar.framework.container.ComponentNotFoundRuntimeException: [ESSR0046]?R???|?[?l???g(robotThread)????????????? > at org.seasar.framework.container.impl.S2ContainerBehavior$DefaultProvider.acquireFromGetComponentDef(S2ContainerBehavior.java:165) > at org.seasar.framework.container.impl.S2ContainerBehavior$DefaultProvider.acquireFromGetComponent(S2ContainerBehavior.java:158) > at org.seasar.framework.container.impl.S2ContainerBehavior.acquireFromGetComponent(S2ContainerBehavior.java:62) > at org.seasar.framework.container.impl.S2ContainerImpl.getComponent(S2ContainerImpl.java:124) > at org.seasar.robot.S2Robot.run(S2Robot.java:209) > at java.lang.Thread.run(Thread.java:722) > WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked. > WARN: Please see http://www.slf4j.org/codes.html#release for an explanation. > > 今度はrobotThreadを削除したことにより、robotThreadが見つからないエラーとなってしまいました。 > > fess 8.1.0ではs2robot 0.5.1を動作させるために、有効な設定などありますでしょうか? > またs2robot 0.5.1が動作する(しそうな)fessのバージョンなどありましたら > 教えていただけないでしょうか。 > > お忙しいところ申し訳ありませんが宜しくお願い致します。 > > 以上 > > > > 2013/07/12 21:43、"Shinsuke Sugaya" のメッセージ: > > 菅谷です。 > > SNAPSHOTバージョンのjarファイルは長期的に > 管理していませんので > http://maven.seasar.org/maven2/org/seasar/robot/s2-robot/0.5.1/ > を利用していただければ良いかと思います。 > よろしくお願いいたします。 > > shinsuke > > > 2013年7月8日 12:15 monolith モノリス : >> お世話になっております。やまです。 >> >> S2RobotのCommandExtractorからxdoc2txtをコマンドライン実行し、 >> テキスト抽出を検討しております。 >> (xdoc2txtがi filterを使用することで、xlsx形式の >>  テキストボックス内文字列抽出が行えるためです。) >> >> 下記トピックのとおり、s2robot_extractor.diconの設定を行ったのですが、 >> インデックスにはテキストボックス内文字列は出力されておらず検索できませんでした。 >> (セル内の文字列はインデックス化されおり、TikaExtractorで抽出された模様) >> >> [fess-user 452] Re: CommandExtractor 仕様について提案 >> http://sourceforge.jp/projects/fess/lists/archive/user/2011-March/000451.html >> >> トピックにあるCommandExtractorの一時ファイルで拡張子付与(.txt)に対応した >> S2Robot「s2-robot-0.5.1-20110330.192026-5.jar」は現在存在しないリンクとなっており、 >> 入手できませんでした。 >> >> 以下サイトに該当のjarは見つかりませんでした。 >> http://maven.seasar.org/maven2-snapshot/org/seasar/robot/s2-robot/0.5.1-SNAPSHOT/ >> >> >> 「s2-robot-0.5.1-20110330.192026-5.jar」の入手方法 or 提供頂く事は可能でしょうか? >> また、その他必要な設定ありましたら教えて頂きたいです。 >> 宜しくお願い致します。 >> >> >> ■s2robot_extractor.diconの設定内容 >> >> > "http://www.seasar.org/dtd/components24.dtd"> >> >> >> >> >> "cmd /c xdoc2txt -i $INPUT_FILE > $OUTPUT_FILE" >> "UTF-8" >> ".txt" >> >> >> >> { >> "application/vnd.openxmlformats-officedocument.presentationml.presentation", >> "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet", >> "application/vnd.ms-excel.sheet.macroenabled.12", >> "application/vnd.openxmlformats-officedocument.wordprocessingml.document" >> } >> officeCmdExtractor >> >> >> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user From monyopoly @ hotmail.co.jp Thu Jul 18 09:33:34 2013 From: monyopoly @ hotmail.co.jp (=?utf-8?B?bW9ub2xpdGgg44Oi44OO44Oq44K5?=) Date: Thu, 18 Jul 2013 09:33:34 +0900 Subject: [fess-user 758] Re: =?iso-2022-jp?b?Q29tbWFuZEV4dHJhY3RvchskQiRIGyhCeGRjbzJ0eHQ=?= =?iso-2022-jp?b?GyRCJE5PIjdIJEskRCQkJEYbKEI=?= In-Reply-To: References: Message-ID: やまです。 ご回答ありがとうございます。 バージョン下げる必要がないとのこと、了解いたしました。 コマンドについては御指摘点を見直してみます。 まずはログ確認してみます。 ありがとうございました。 2013/07/13 8:25、"Shinsuke Sugaya" のメッセージ: 菅谷です。 Fessに含まれるS2Robotのバージョンは より高いものに差し替えるのは動くと思いますが 低いものに下げると動かないと思います。 また、0.5.1に入れてある修正はそれ以上の バージョンには含まれているので、S2Robotの バージョンを下げる必要はないと思います。 設定で気になるところは "cmd /c xdoc2txt -i $INPUT_FILE > $OUTPUT_FILE" のコマンド内の>が>のような気もします。 あとは、ログをDEBUGで出力してみて確認など するしかないかと思います。 よろしくお願いいたします。 shinsuke 2013年7月12日 23:47 monolith モノリス : > お世話になっております。やまです。 > > お忙しいところ、ご回答ありがとうございます。 > 教えていただいた箇所よりダウンロードし、 > 0.5.7のjarを以下3つと差し換えました。 > > s2-robot-0.5.1.jar > s2-robot-db-0.5.1.jar > s2-robot-db-h2-0.5.1.jar > > しかし、クロール時にインデックスが作成されず、 > fess.outに以下エラーが出力されました。(文字化けは無視してください) > > Processed: C:/fess/fess-server/webapps/fess/WEB-INF/db/robot.h2.db > Exception in thread "Robot-20130712223500-1" org.seasar.framework.beans.PropertyNotFoundRuntimeException: [ESSR0065]?N???X(jp.sf.fess.robot.FessS2RobotThread)??v???p?e?B(noWaitOnFolder)????????????? > at org.seasar.framework.beans.impl.BeanDescImpl.getPropertyDesc(BeanDescImpl.java:137) > at org.seasar.framework.container.assembler.AccessTypePropertyDef.bind(AccessTypePropertyDef.java:48) > at org.seasar.framework.container.assembler.AccessTypePropertyDef.bind(AccessTypePropertyDef.java:41) > at org.seasar.framework.container.assembler.AutoPropertyAssembler.assemble(AutoPropertyAssembler.java:56) > at org.seasar.framework.container.deployer.PrototypeComponentDeployer.deploy(PrototypeComponentDeployer.java:43) > at org.seasar.framework.container.impl.ComponentDefImpl.getComponent(ComponentDefImpl.java:111) > at org.seasar.framework.container.impl.S2ContainerImpl.getComponent(S2ContainerImpl.java:129) > at org.seasar.robot.S2Robot.run(S2Robot.java:209) > at java.lang.Thread.run(Thread.java:722) > WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked. > WARN: Please see http://www.slf4j.org/codes.html#release for an explanation. > > > s2robot 0.5.1にはnoWaitOnFolderのプロパティが無くDIできないと考え、 > s2robot_db.diconの > > true > > を削除すると以下ログが出力されました。 > > Processed: C:/fess/fess-server/webapps/fess/WEB-INF/db/robot.h2.db > Exception in thread "Robot-20130712224331-1" org.seasar.framework.container.ComponentNotFoundRuntimeException: [ESSR0046]?R???|?[?l???g(robotThread)????????????? > at org.seasar.framework.container.impl.S2ContainerBehavior$DefaultProvider.acquireFromGetComponentDef(S2ContainerBehavior.java:165) > at org.seasar.framework.container.impl.S2ContainerBehavior$DefaultProvider.acquireFromGetComponent(S2ContainerBehavior.java:158) > at org.seasar.framework.container.impl.S2ContainerBehavior.acquireFromGetComponent(S2ContainerBehavior.java:62) > at org.seasar.framework.container.impl.S2ContainerImpl.getComponent(S2ContainerImpl.java:124) > at org.seasar.robot.S2Robot.run(S2Robot.java:209) > at java.lang.Thread.run(Thread.java:722) > WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked. > WARN: Please see http://www.slf4j.org/codes.html#release for an explanation. > > 今度はrobotThreadを削除したことにより、robotThreadが見つからないエラーとなってしまいました。 > > fess 8.1.0ではs2robot 0.5.1を動作させるために、有効な設定などありますでしょうか? > またs2robot 0.5.1が動作する(しそうな)fessのバージョンなどありましたら > 教えていただけないでしょうか。 > > お忙しいところ申し訳ありませんが宜しくお願い致します。 > > 以上 > > > > 2013/07/12 21:43、"Shinsuke Sugaya" のメッセージ: > > 菅谷です。 > > SNAPSHOTバージョンのjarファイルは長期的に > 管理していませんので > http://maven.seasar.org/maven2/org/seasar/robot/s2-robot/0.5.1/ > を利用していただければ良いかと思います。 > よろしくお願いいたします。 > > shinsuke > > > 2013年7月8日 12:15 monolith モノリス : >> お世話になっております。やまです。 >> >> S2RobotのCommandExtractorからxdoc2txtをコマンドライン実行し、 >> テキスト抽出を検討しております。 >> (xdoc2txtがi filterを使用することで、xlsx形式の >>   テキストボックス内文字列抽出が行えるためです。) >> >> 下記トピックのとおり、s2robot_extractor.diconの設定を行ったのですが、 >> インデックスにはテキストボックス内文字列は出力されておらず検索できませんでした。 >> (セル内の文字列はインデックス化されおり、TikaExtractorで抽出された模様) >> >> [fess-user 452] Re: CommandExtractor 仕様について提案 >> http://sourceforge.jp/projects/fess/lists/archive/user/2011-March/000451.html >> >> トピックにあるCommandExtractorの一時ファイルで拡張子付与(.txt)に対応した >> S2Robot「s2-robot-0.5.1-20110330.192026-5.jar」は現在存在しないリンクとなっており、 >> 入手できませんでした。 >> >> 以下サイトに該当のjarは見つかりませんでした。 >> http://maven.seasar.org/maven2-snapshot/org/seasar/robot/s2-robot/0.5.1-SNAPSHOT/ >> >> >> 「s2-robot-0.5.1-20110330.192026-5.jar」の入手方法 or 提供頂く事は可能でしょうか? >> また、その他必要な設定ありましたら教えて頂きたいです。 >> 宜しくお願い致します。 >> >> >> ■s2robot_extractor.diconの設定内容 >> >> > "http://www.seasar.org/dtd/components24.dtd"> >> >> >> >> >> "cmd /c xdoc2txt -i $INPUT_FILE > $OUTPUT_FILE" >> "UTF-8" >> ".txt" >> >> >> >> { >> "application/vnd.openxmlformats-officedocument.presentationml.presentation", >> "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet", >> "application/vnd.ms-excel.sheet.macroenabled.12", >> "application/vnd.openxmlformats-officedocument.wordprocessingml.document" >> } >> officeCmdExtractor >> >> >> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user _______________________________________________ Fess-user mailing list Fess-user @ lists.sourceforge.jp http://lists.sourceforge.jp/mailman/listinfo/fess-user From shinsuke @ yahoo.co.jp Fri Jul 19 14:55:07 2013 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 19 Jul 2013 14:55:07 +0900 Subject: [fess-user 759] Re: =?iso-2022-jp?b?GyRCJSYlJyVWJS8lbSE8JWskSyREJCQkRhsoQg==?= Message-ID: 菅谷です。 (スパム防止のため、送信にはFessのMLへの登録が必要になります) クロールしたURLは webapps/fess/WEB-INF/logs/fess_crawler.out のログファイルに出力されるので、 まずは対象がクロールされたかどうかを 確認していただくのが良いかと思います。 よろしくお願いいたします。 shinsuke 2013年7月19日 14:28 : > From: "北端 利行" > To: fess-user @ lists.sourceforge.jp > Cc: > Date: Fri, 19 Jul 2013 14:28:14 +0900 > Subject: ウェブクロールについて > クロールの正規表現が正常に動作しないためご教示ください。 > > 現在ローカルネットワークで2サイトの構築をしており > その2サイトを検索できる様にしたいと考えております。 > > クロール設定では以下にて設定してますがtestディレクトリがコミットされません。 > >  http://192.168.1.10/test/.* >  http://192.168.1.10/beet/.* > > 以下のアドレスがコミットされて欲しいです。 > >  http://192.168.1.10/test/test.php?id=work > > beetディレクトリは以下の様なアドレスなのですが > 正常にコミットされております。 > ただtestディレクトリにも同様なアドレスがありますが > コミットされておりません。 > >  http://192.168.1.10/beet/login_page.php >  http://192.168.1.10/test/test.php > > 環境は下記となります。 > >  Windows2003 >  fess-server-8.1.0 >  jdk1.7.0_25 > > よろしくお願い致します。 > > From toshiyuki-kitabata @ kccs.co.jp Fri Jul 19 15:54:00 2013 From: toshiyuki-kitabata @ kccs.co.jp (=?ISO-2022-JP?B?GyRCS0xDPBsoQiAbJEJNeDlUGyhC?=) Date: Fri, 19 Jul 2013 15:54:00 +0900 Subject: [fess-user 760] Re: =?iso-2022-jp?b?GyRCJSYlJyVWJS8lbSE8JWskSyREJCQkRhsoQg==?= In-Reply-To: References: Message-ID: <20130719155357.EEDB.91B17D88@kccs.co.jp> 菅谷様 ご回答有難う御座います。 言われたログを確認したのですが、クローリングされているように見えるのですが このログでの判断が出来ないのですが、ご教示頂けますでしょうか。 2013-07-19 14:30:24,610 [main] INFO org.seasar.framework.container.factory.SingletonS2ContainerFactory - s2-frameworkのバージョンは2.4.46です。 2013-07-19 14:30:24,626 [main] INFO org.seasar.framework.container.factory.SingletonS2ContainerFactory - s2-extensionのバージョンは2.4.46です。 2013-07-19 14:30:24,626 [main] INFO org.seasar.framework.container.factory.SingletonS2ContainerFactory - s2-tigerのバージョンは2.4.46です。 2013-07-19 14:31:03,145 [main] INFO jp.sf.fess.db.allcommon.DBFluteInitializer - ...Initializing DBFlute components 2013-07-19 14:31:03,909 [main] INFO org.apache.solr.client.solrj.impl.HttpClientUtil - Creating new http client, config:maxConnections=128&maxConnectionsPerHost=32&followRedirects=false 2013-07-19 14:31:11,086 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.codelibs.solr.lib.server.interceptor.PreemptiveAuthInterceptorのプロパティ(authScheme)が見つからないので設定をスキップします 2013-07-19 14:31:19,214 [main] INFO org.seasar.robot.db.allcommon.DBFluteInitializer - ...Initializing DBFlute components 2013-07-19 14:32:08,638 [main] INFO org.seasar.framework.container.factory.SingletonS2ContainerFactory - Running on [ENV]product, [DEPLOY MODE]Cool Deploy 2013-07-19 14:32:27,923 [main] INFO jp.sf.fess.exec.Crawler - Starting Crawler.. 2013-07-19 14:32:29,951 [main] INFO jp.sf.fess.exec.Crawler - Expired Session Ids: [] 2013-07-19 14:32:30,918 [Data Crawling Process] INFO jp.sf.fess.helper.DataIndexHelper - No crawling target urls. 2013-07-19 14:32:32,449 [Robot-20130719142925-1-1] INFO org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: http://10.149.4.65/test/ 2013-07-19 14:32:32,465 [Robot-20130719142925-1-1] INFO org.seasar.robot.client.http.HcHttpClient - Checking URL: http://10.149.4.65/robots.txt 2013-07-19 14:32:32,559 [Robot-20130719142925-1-1] INFO org.seasar.robot.helper.impl.LogHelperImpl - Redirect to URL: http://10.149.4.65/test/ 2013-07-19 14:33:31,125 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. The processing size is 0. The execution time is 47ms. 2013-07-19 14:34:27,839 [Web Crawling Process] INFO jp.sf.fess.helper.WebFsIndexHelper - [EXEC TIME] crawling time: 117467ms 2013-07-19 14:34:31,068 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. The processing size is 0. The execution time is 16ms. 2013-07-19 14:34:31,083 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - [EXEC TIME] index update time: 78ms 2013-07-19 14:34:32,519 [main] INFO jp.sf.fess.exec.Crawler - [EXEC TIME] index commit time: 1233ms 2013-07-19 14:34:32,519 [main] INFO jp.sf.fess.exec.Crawler - Finished Crawler ご確認宜しくお願い致します。 On Fri, 19 Jul 2013 14:55:07 +0900 Shinsuke Sugaya wrote: > 菅谷です。 > > (スパム防止のため、送信にはFessのMLへの登録が必要になります) > > クロールしたURLは > webapps/fess/WEB-INF/logs/fess_crawler.out > のログファイルに出力されるので、 > まずは対象がクロールされたかどうかを > 確認していただくのが良いかと思います。 > よろしくお願いいたします。 > > shinsuke > > > 2013年7月19日 14:28 : > > From: "北端 利行" > > To: fess-user @ lists.sourceforge.jp > > Cc: > > Date: Fri, 19 Jul 2013 14:28:14 +0900 > > Subject: ウェブクロールについて > > クロールの正規表現が正常に動作しないためご教示ください。 > > > > 現在ローカルネットワークで2サイトの構築をしており > > その2サイトを検索できる様にしたいと考えております。 > > > > クロール設定では以下にて設定してますがtestディレクトリがコミットされません。 > > > >  http://192.168.1.10/test/.* > >  http://192.168.1.10/beet/.* > > > > 以下のアドレスがコミットされて欲しいです。 > > > >  http://192.168.1.10/test/test.php?id=work > > > > beetディレクトリは以下の様なアドレスなのですが > > 正常にコミットされております。 > > ただtestディレクトリにも同様なアドレスがありますが > > コミットされておりません。 > > > >  http://192.168.1.10/beet/login_page.php > >  http://192.168.1.10/test/test.php > > > > 環境は下記となります。 > > > >  Windows2003 > >  fess-server-8.1.0 > >  jdk1.7.0_25 > > > > よろしくお願い致します。 > > > > □□□□□□□□□□□□□□□□□□□□□□□□ 京セラコミュニケーションシステム株式会社 ネットワークアウトソーシング事業部 京都ネットワークサービス2課 北端 利行 内線:8826-5089 外線:075-623-0562 □□□□□□□□□□□□□ (end of e-mail)□□□ From shinsuke @ yahoo.co.jp Fri Jul 19 16:03:14 2013 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 19 Jul 2013 16:03:14 +0900 Subject: [fess-user 761] Re: =?iso-2022-jp?b?GyRCJSYlJyVWJS8lbSE8JWskSyREJCQkRhsoQg==?= In-Reply-To: <20130719155357.EEDB.91B17D88@kccs.co.jp> References: <20130719155357.EEDB.91B17D88@kccs.co.jp> Message-ID: 菅谷です。 > Redirect to URL: http://10.149.4.65/test/ はリダイレクトされているようですが、 ユーザーエージェントなどでコンテンツの 出し分け等をしていませんでしょうか? おそらく、リダイレクト先のコンテンツを 取得しているとは思われますが、そのコンテンツ内に リンクがないようにも思われます。 より詳しく取得内容も確認する場合は、 http://fess.codelibs.org/ja/8.0/config/logging.html にあるクロールの通信内容のログレベルを debugにすると、クロール内容がコンテンツ 含めて取得されます。そこで、リダイレクト先として 取得されるコンテンツを確認していただけると 良いかと思います。 よろしくお願いいたします。 shinsuke 2013年7月19日 15:54 北端 利行 : > 菅谷様 > > ご回答有難う御座います。 > > 言われたログを確認したのですが、クローリングされているように見えるのですが > このログでの判断が出来ないのですが、ご教示頂けますでしょうか。 > > 2013-07-19 14:30:24,610 [main] INFO org.seasar.framework.container.factory.SingletonS2ContainerFactory - s2-frameworkのバージョンは2.4.46です。 > 2013-07-19 14:30:24,626 [main] INFO org.seasar.framework.container.factory.SingletonS2ContainerFactory - s2-extensionのバージョンは2.4.46です。 > 2013-07-19 14:30:24,626 [main] INFO org.seasar.framework.container.factory.SingletonS2ContainerFactory - s2-tigerのバージョンは2.4.46です。 > 2013-07-19 14:31:03,145 [main] INFO jp.sf.fess.db.allcommon.DBFluteInitializer - ...Initializing DBFlute components > 2013-07-19 14:31:03,909 [main] INFO org.apache.solr.client.solrj.impl.HttpClientUtil - Creating new http client, config:maxConnections=128&maxConnectionsPerHost=32&followRedirects=false > 2013-07-19 14:31:11,086 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.codelibs.solr.lib.server.interceptor.PreemptiveAuthInterceptorのプロパティ(authScheme)が見つからないので設定をスキップします > 2013-07-19 14:31:19,214 [main] INFO org.seasar.robot.db.allcommon.DBFluteInitializer - ...Initializing DBFlute components > 2013-07-19 14:32:08,638 [main] INFO org.seasar.framework.container.factory.SingletonS2ContainerFactory - Running on [ENV]product, [DEPLOY MODE]Cool Deploy > 2013-07-19 14:32:27,923 [main] INFO jp.sf.fess.exec.Crawler - Starting Crawler.. > 2013-07-19 14:32:29,951 [main] INFO jp.sf.fess.exec.Crawler - Expired Session Ids: [] > 2013-07-19 14:32:30,918 [Data Crawling Process] INFO jp.sf.fess.helper.DataIndexHelper - No crawling target urls. > 2013-07-19 14:32:32,449 [Robot-20130719142925-1-1] INFO org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: http://10.149.4.65/test/ > 2013-07-19 14:32:32,465 [Robot-20130719142925-1-1] INFO org.seasar.robot.client.http.HcHttpClient - Checking URL: http://10.149.4.65/robots.txt > 2013-07-19 14:32:32,559 [Robot-20130719142925-1-1] INFO org.seasar.robot.helper.impl.LogHelperImpl - Redirect to URL: http://10.149.4.65/test/ > 2013-07-19 14:33:31,125 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. The processing size is 0. The execution time is 47ms. > 2013-07-19 14:34:27,839 [Web Crawling Process] INFO jp.sf.fess.helper.WebFsIndexHelper - [EXEC TIME] crawling time: 117467ms > 2013-07-19 14:34:31,068 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. The processing size is 0. The execution time is 16ms. > 2013-07-19 14:34:31,083 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - [EXEC TIME] index update time: 78ms > 2013-07-19 14:34:32,519 [main] INFO jp.sf.fess.exec.Crawler - [EXEC TIME] index commit time: 1233ms > 2013-07-19 14:34:32,519 [main] INFO jp.sf.fess.exec.Crawler - Finished Crawler > > > ご確認宜しくお願い致します。 > > On Fri, 19 Jul 2013 14:55:07 +0900 > Shinsuke Sugaya wrote: > >> 菅谷です。 >> >> (スパム防止のため、送信にはFessのMLへの登録が必要になります) >> >> クロールしたURLは >> webapps/fess/WEB-INF/logs/fess_crawler.out >> のログファイルに出力されるので、 >> まずは対象がクロールされたかどうかを >> 確認していただくのが良いかと思います。 >> よろしくお願いいたします。 >> >> shinsuke >> >> >> 2013年7月19日 14:28 : >> > From: "北端 利行" >> > To: fess-user @ lists.sourceforge.jp >> > Cc: >> > Date: Fri, 19 Jul 2013 14:28:14 +0900 >> > Subject: ウェブクロールについて >> > クロールの正規表現が正常に動作しないためご教示ください。 >> > >> > 現在ローカルネットワークで2サイトの構築をしており >> > その2サイトを検索できる様にしたいと考えております。 >> > >> > クロール設定では以下にて設定してますがtestディレクトリがコミットされません。 >> > >> >  http://192.168.1.10/test/.* >> >  http://192.168.1.10/beet/.* >> > >> > 以下のアドレスがコミットされて欲しいです。 >> > >> >  http://192.168.1.10/test/test.php?id=work >> > >> > beetディレクトリは以下の様なアドレスなのですが >> > 正常にコミットされております。 >> > ただtestディレクトリにも同様なアドレスがありますが >> > コミットされておりません。 >> > >> >  http://192.168.1.10/beet/login_page.php >> >  http://192.168.1.10/test/test.php >> > >> > 環境は下記となります。 >> > >> >  Windows2003 >> >  fess-server-8.1.0 >> >  jdk1.7.0_25 >> > >> > よろしくお願い致します。 >> > >> > > > □□□□□□□□□□□□□□□□□□□□□□□□ > > 京セラコミュニケーションシステム株式会社 > ネットワークアウトソーシング事業部 > 京都ネットワークサービス2課 > > 北端 利行 > > 内線:8826-5089 外線:075-623-0562 > > □□□□□□□□□□□□□ (end of e-mail)□□□ > From kazuaki.matsuhashi @ quick.jp Tue Jul 23 19:42:01 2013 From: kazuaki.matsuhashi @ quick.jp (=?ISO-2022-JP?B?GyRCPj42Nk9CPjwbKEI=?=) Date: Tue, 23 Jul 2013 19:42:01 +0900 Subject: [fess-user 762] java.lang.ClassCastException: [Lorg.seasar.robot.client.http.Authentication; cannot be cast to [Lorg.seasar.robot.client.http.BasicAuthentication; at org.seasar.robot.client.http.CommonsHttpClient.init(CommonsHttpClient.java:215) Message-ID: はじめまして。matsuhashiと申します。Fessをはじめたばかりです。 会社のイントラ環境の中で自分のPCで fess-server-8.1.0 を立ち上げ、プロキシー越しにインターネット上の某サイトをクロールしようとしました。 http://fess.codelibs.org/ja/8.0/config/proxy.html 「プロキシ設定」 を読んで、s2robot_client.diconファイルを作り、自分の環境のプロキシーサーバ名とポートを指定しました。 fessサーバにクロールさせると失敗して、ひとつもURLをクロールできません。 /fess/adminのシステム情報>障害URLをみると下記のスタック・トレースが出力されていました。 java.lang.ClassCastException: [Lorg.seasar.robot.client.http.Authentication; cannot be cast to [Lorg.seasar.robot.client.http.BasicAuthentication; at org.seasar.robot.client.http.CommonsHttpClient.init(CommonsHttpClient.java:215) at org.seasar.robot.client.http.CommonsHttpClient.doHttpMethod(CommonsHttpClient.java:388) at org.seasar.robot.client.http.CommonsHttpClient.doHead(CommonsHttpClient.java:382) at jp.sf.fess.robot.FessS2RobotThread.isContentUpdated(FessS2RobotThread.java:89) at org.seasar.robot.S2RobotThread.run(S2RobotThread.java:158) at java.lang.Thread.run(Thread.java:662 なにか助言いただければありがたいです。 -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: http://lists.sourceforge.jp/mailman/archives/fess-user/attachments/20130723/a88c2f60/attachment.htm From shinsuke @ yahoo.co.jp Tue Jul 23 20:28:46 2013 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Tue, 23 Jul 2013 20:28:46 +0900 Subject: [fess-user 763] Re: java.lang.ClassCastException: [Lorg.seasar.robot.client.http.Authentication; cannot be cast to [Lorg.seasar.robot.client.http.BasicAuthentication; at org.seasar.robot.client.http.CommonsHttpClient.init(CommonsHttpClient.java:215) In-Reply-To: References: Message-ID: 菅谷です。 現在、CommonsHttpClientは利用せず、HcHttpClientが 利用される想定なのですが、どこかにdiconで CommonsHttpClientを記述しているでしょうか? よろしくお願いいたします。 shinsuke 2013年7月23日 19:42 松橋和昭 : > はじめまして。matsuhashiと申します。Fessをはじめたばかりです。 > > 会社のイントラ環境の中で自分のPCで fess-server-8.1.0 > を立ち上げ、プロキシー越しにインターネット上の某サイトをクロールしようとしました。 > > http://fess.codelibs.org/ja/8.0/config/proxy.html 「プロキシ設定」 > を読んで、s2robot_client.diconファイルを作り、自分の環境のプロキシーサーバ名とポートを指定しました。 > > fessサーバにクロールさせると失敗して、ひとつもURLをクロールできません。 > > /fess/adminのシステム情報>障害URLをみると下記のスタック・トレースが出力されていました。 > > java.lang.ClassCastException: [Lorg.seasar.robot.client.http.Authentication; > cannot be cast to [Lorg.seasar.robot.client.http.BasicAuthentication; > at > org.seasar.robot.client.http.CommonsHttpClient.init(CommonsHttpClient.java:215) > at > org.seasar.robot.client.http.CommonsHttpClient.doHttpMethod(CommonsHttpClient.java:388) > at > org.seasar.robot.client.http.CommonsHttpClient.doHead(CommonsHttpClient.java:382) > at > jp.sf.fess.robot.FessS2RobotThread.isContentUpdated(FessS2RobotThread.java:89) > at org.seasar.robot.S2RobotThread.run(S2RobotThread.java:158) > at java.lang.Thread.run(Thread.java:662 > > なにか助言いただければありがたいです。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From kazuaki.matsuhashi @ quick.jp Wed Jul 24 08:43:49 2013 From: kazuaki.matsuhashi @ quick.jp (=?ISO-2022-JP?B?GyRCPj42Nk9CPjwbKEI=?=) Date: Wed, 24 Jul 2013 08:43:49 +0900 Subject: [fess-user 764] Re: java.lang.ClassCastException: [Lorg.seasar.robot.client.http.Authentication; cannot be cast to [Lorg.seasar.robot.client.http.BasicAuthentication; at org.seasar.robot.client.http.CommonsHttpClient.init(CommonsHttpClient.java:215) In-Reply-To: References: Message-ID: ありがとうございます。 わたしはFessのプロキシ設定を調べようとググッて下記のページをみつけ、サンプルコードをコピペしました。 http://fess.sourceforge.jp/ja/2.0/config/proxy.html 古いバージョン2.0の説明をみていたことをいま知りました。 最新のドキュメントは http://fess.codelibs.org/ja/8.0/config/proxy.htmlですね。こちらを参照してやってみます。 2013年7月23日 20:28 Shinsuke Sugaya : > 菅谷です。 > > 現在、CommonsHttpClientは利用せず、HcHttpClientが > 利用される想定なのですが、どこかにdiconで > CommonsHttpClientを記述しているでしょうか? > > よろしくお願いいたします。 > > shinsuke > > > 2013年7月23日 19:42 松橋和昭 : > > はじめまして。matsuhashiと申します。Fessをはじめたばかりです。 > > > > 会社のイントラ環境の中で自分のPCで fess-server-8.1.0 > > を立ち上げ、プロキシー越しにインターネット上の某サイトをクロールしようとしました。 > > > > http://fess.codelibs.org/ja/8.0/config/proxy.html 「プロキシ設定」 > > を読んで、s2robot_client.diconファイルを作り、自分の環境のプロキシーサーバ名とポートを指定しました。 > > > > fessサーバにクロールさせると失敗して、ひとつもURLをクロールできません。 > > > > /fess/adminのシステム情報>障害URLをみると下記のスタック・トレースが出力されていました。 > > > > java.lang.ClassCastException: > [Lorg.seasar.robot.client.http.Authentication; > > cannot be cast to [Lorg.seasar.robot.client.http.BasicAuthentication; > > at > > > org.seasar.robot.client.http.CommonsHttpClient.init(CommonsHttpClient.java:215) > > at > > > org.seasar.robot.client.http.CommonsHttpClient.doHttpMethod(CommonsHttpClient.java:388) > > at > > > org.seasar.robot.client.http.CommonsHttpClient.doHead(CommonsHttpClient.java:382) > > at > > > jp.sf.fess.robot.FessS2RobotThread.isContentUpdated(FessS2RobotThread.java:89) > > at org.seasar.robot.S2RobotThread.run(S2RobotThread.java:158) > > at java.lang.Thread.run(Thread.java:662 > > > > なにか助言いただければありがたいです。 > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > -- ПППППППППППППППППППППППППППППППП 株式会社QUICK システム開発本部 エキスパート(システム開発担当) 松橋和昭 まつはしかずあき Tel: 03-6733-9062 内線3238 Email: kazuaki.matsuhashi @ quick.jp -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: http://lists.sourceforge.jp/mailman/archives/fess-user/attachments/20130724/f6da22d9/attachment.htm From kaneyasu @ skycom.jp Tue Jul 30 13:45:02 2013 From: kaneyasu @ skycom.jp (=?ISO-2022-JP?B?GyRCN3MwQkpZGyhC?=) Date: Tue, 30 Jul 2013 13:45:02 +0900 Subject: [fess-user 765] =?iso-2022-jp?b?GyRCSjg7ejI9JDEkSyREJCQkRhsoQg==?= Message-ID: はじめまして。兼安と申します。 PDFファイルのみを配置しているフォルダを 「ファイルシステムクロールの設定」 でクロールさせました。 その後、検索したのですが、一部のPDFファイルについて PDFファイルの内容を表示する部分だけが文字化けしております。 (以下、文字化けの一部) === ???????? 2013? 5? ????????? ???? ???? ?? ???? 2012/09/08 0.0.1... ??????? === このような場合、どのような対応すべきかご教示いただければと思います。 この情報だけでは分かりずらいかと思いますが、 その際はどこの情報を記載すべきでしょうか? -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: http://lists.sourceforge.jp/mailman/archives/fess-user/attachments/20130730/cd28cb11/attachment.htm From mustang.35th.it @ gmail.com Wed Jul 31 00:47:59 2013 From: mustang.35th.it @ gmail.com (=?ISO-2022-JP?B?GyRCOzM4fTUuTmkbKEI=?=) Date: Wed, 31 Jul 2013 00:47:59 +0900 Subject: [fess-user 766] =?iso-2022-jp?b?UERGGyRCJE4lPyUkJUglayFKJWElPz5wSnMhSyRyOCEbKEI=?= =?iso-2022-jp?b?GyRCOnc3azJMJEtJPTwoJDckPyQkGyhC?= Message-ID: お世話になります。 山口と申します。 便利なソフトを開発していただき、ありがとうございます。 検索結果でPDFの場合、ファイル名が表示されています。 これをメタ情報のタイトルに変更したいのですが、可能でしょうか? 設定ファイルの変更で対応できるのであれば、 変更する箇所を教えていただきたく、宜しくお願い致します。 -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: http://lists.sourceforge.jp/mailman/archives/fess-user/attachments/20130731/218305c5/attachment.htm From shinsuke @ yahoo.co.jp Wed Jul 31 13:39:05 2013 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Wed, 31 Jul 2013 13:39:05 +0900 Subject: [fess-user 767] Re: =?iso-2022-jp?b?UERGGyRCJE4lPyUkJUglayFKJWElPz5wSnMhSyRyGyhC?= =?iso-2022-jp?b?GyRCOCE6dzdrMkwkS0k9PCgkNyQ/JCQbKEI=?= In-Reply-To: References: Message-ID: 菅谷です。 ちょっと面倒な設定になりますが、 まず、webapps/fess/WEB-INF/classes/s2robot_transformer.diconで "fessFileTransformer" true true "UTF-8" "Title" "title_s" というような感じで、addMetaContentMappingのinitMethod要素を 加えます。次にwebapps/fess/WEB-INF/classes/app.diconで new String[]{"id", "score", "boost", "contentLength", "host", "site", "lastModified", "mimetype", "tstamp", "title", "digest", "url", "clickCount_i", "favoriteCount_i", "screenshot_s_s", "title_s"} ... という箇所にresponseFieldsのproperty要素を追加します。 あとは、クロールして、検索結果を表示するjspの src/main/webapp/WEB-INF/view/searchResults.jspで ${f:h(doc.title_s)} と記述すると、PDFのタイトルが 表示されます。既存のタイトルは${f:h(doc.contentTitle)}に なりますので、 ${f:h(doc.title_s)} ${f:h(doc.contentTitle)} みたいな感じで出し分けたりすると良いかもしれません。 (c:ifのところは手書きで書いた感じなので動確してません) よろしくお願いいたします。 shinsuke 2013年7月31日 0:47 山口貴礼 : > お世話になります。 > 山口と申します。 > > 便利なソフトを開発していただき、ありがとうございます。 > > 検索結果でPDFの場合、ファイル名が表示されています。 > これをメタ情報のタイトルに変更したいのですが、可能でしょうか? > > 設定ファイルの変更で対応できるのであれば、 > 変更する箇所を教えていただきたく、宜しくお願い致します。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Wed Jul 31 13:42:27 2013 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Wed, 31 Jul 2013 13:42:27 +0900 Subject: [fess-user 768] Re: =?iso-2022-jp?b?GyRCSjg7ejI9JDEkSyREJCQkRhsoQg==?= In-Reply-To: References: Message-ID: 菅谷です。 標準ではPDFからテキストが抽出できるかどうかは Apache のPDFBoxに依存しています。ですので、 PDFBoxで取得できていないのだと思われます。 対策としては、pdf2txtのコマンド呼び出しに変えるとかで、 PDFBox以外の方法で試してみるとかかと思います。 もし、ネット上とかからその問題のPDFが取得できるようで あれば、PDFBox等で何とかなるものかどうかを 確認することも可能です。 よろしくお願いいたします。 shinsuke 2013年7月30日 13:45 兼安勉 : > はじめまして。兼安と申します。 > > PDFファイルのみを配置しているフォルダを > 「ファイルシステムクロールの設定」 > でクロールさせました。 > > その後、検索したのですが、一部のPDFファイルについて > PDFファイルの内容を表示する部分だけが文字化けしております。 > (以下、文字化けの一部) > > === > ???????? 2013? 5? ????????? ???? ???? ?? ???? 2012/09/08 0.0.1... ??????? > === > > このような場合、どのような対応すべきかご教示いただければと思います。 > この情報だけでは分かりずらいかと思いますが、 > その際はどこの情報を記載すべきでしょうか? > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user >