[fess-user 411] Re: パスワード付きPDFのインデクシングについて

Zurück zum Archiv-Index

Yoshimasa Iwase iwase****@gmail*****
2010年 12月 9日 (木) 01:29:39 JST


岩瀬です。お世話になっております。

先日、パス付きPDFのインデクシング方法をご教授いただきましたので、
実際に試させていただきましたが、現状実現できておりません。

現状実施したこととしては、
1. s2robot公式より、「s2-robot-0.1.0-src.zip」をDLし「s2robot_extractor.dicon」を抽出
2. Fessのwebapps\fess\WEB-INF\classes に配置
3. 以下の設定をtikaの設定部分に記述

<component name="tikaExtractor"
class="org.seasar.robot.extractor.impl.TikaExtractor">
 <initMethod name="addPdfPassword">
  <arg>"*.pdf"</arg>
  <arg>"password"</arg>
 </initMethod>
</component>

ですが、2終了の時点でクロールを実施すると、クロールが正常に動作していないようです。
何か他ファイルに参照を追記する必要がございますでしょうか?
それとも、そもそもs2robot_extractorはそのまま使えないのでしょうか?
他に必要な処理があるのであれば、恐れ入りますがご教授いただければ幸いです。

2010/11/6 Yoshimasa Iwase <iwase****@gmail*****>:
> 岩瀬です。
>
> どうもありがとうございました。
> 早速、実運用で試させていただきます!
>
> 2010/11/5 Shinsuke Sugaya <shins****@yahoo*****>:
>> 菅谷です。
>>
>>> 以下のようになると考えてよいでしょうか?
>>
>> はい。
>>
>>> それとも、"*.pdf"のようにワイルドカードが利用可能でしょうか?
>>
>> Java の正規表現で指定できるようにしました。
>>
>> shinsuke
>>
>>
>> 2010年11月4日23:21 Yoshimasa Iwase <iwase****@gmail*****>:
>>> 岩瀬です。
>>> 迅速な回答ありがとうございました。
>>>
>>> Passwordが同じ複数のファイルを対象とする場合は、
>>> 以下のようになると考えてよいでしょうか?
>>>
>>> <component name="tikaExtractor"
>>> class="org.seasar.robot.extractor.impl.TikaExtractor">
>>>  <initMethod name="addPdfPassword">
>>>   <arg>"hoge.pdf"</arg>
>>>   <arg>"password"</arg>
>>>  </initMethod>
>>>  <initMethod name="addPdfPassword">
>>>   <arg>"foobar.pdf"</arg>
>>>   <arg>"password"</arg>
>>>  </initMethod>
>>> </component>
>>>
>>> それとも、"*.pdf"のようにワイルドカードが利用可能でしょうか?
>>> 連続してご質問して申し訳御座いませんが、回答いただければ幸いです。
>>>
>>> --
>>> Yoshimasa IWASE
>>>
>>> _______________________________________________
>>> Fess-user mailing list
>>> Fess-****@lists*****
>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>>
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-****@lists*****
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>
>
>
>
> --
> Yoshimasa IWASE
>



-- 
Yoshimasa IWASE




Fess-user メーリングリストの案内
Zurück zum Archiv-Index