monolith モノリス
monyo****@hotma*****
2013年 7月 8日 (月) 12:15:06 JST
お世話になっております。やまです。 S2RobotのCommandExtractorからxdoc2txtをコマンドライン実行し、 テキスト抽出を検討しております。 (xdoc2txtがi filterを使用することで、xlsx形式の テキストボックス内文字列抽出が行えるためです。) 下記トピックのとおり、s2robot_extractor.diconの設定を行ったのですが、 インデックスにはテキストボックス内文字列は出力されておらず検索できませんでした。 (セル内の文字列はインデックス化されおり、TikaExtractorで抽出された模様) [fess-user 452] Re: CommandExtractor 仕様について提案 http://sourceforge.jp/projects/fess/lists/archive/user/2011-March/000451.html トピックにあるCommandExtractorの一時ファイルで拡張子付与(.txt)に対応した S2Robot「s2-robot-0.5.1-20110330.192026-5.jar」は現在存在しないリンクとなっており、 入手できませんでした。 以下サイトに該当のjarは見つかりませんでした。 http://maven.seasar.org/maven2-snapshot/org/seasar/robot/s2-robot/0.5.1-SNAPSHOT/ 「s2-robot-0.5.1-20110330.192026-5.jar」の入手方法 or 提供頂く事は可能でしょうか? また、その他必要な設定ありましたら教えて頂きたいです。 宜しくお願い致します。 ■s2robot_extractor.diconの設定内容 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE components PUBLIC "-//SEASAR//DTD S2Container 2.4//EN" "http://www.seasar.org/dtd/components24.dtd"> <components> <component name="tikaExtractor" class="org.seasar.robot.extractor.impl.TikaExtractor"/> <component name="officeCmdExtractor" class="org.seasar.robot.extractor.impl.CommandExtractor"> <property name="command">"cmd /c xdoc2txt -i $INPUT_FILE > $OUTPUT_FILE"</property> <property name="outputEncoding">"UTF-8"</property> <property name="outputExtension">".txt"</property> </component> <component name="extractorFactory" class="org.seasar.robot.extractor.ExtractorFactory"> <initMethod name="addExtractor"> <arg>{ "application/vnd.openxmlformats-officedocument.presentationml.presentation", "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet", "application/vnd.ms-excel.sheet.macroenabled.12", "application/vnd.openxmlformats-officedocument.wordprocessingml.document" }</arg> <arg>officeCmdExtractor</arg> </initMethod> </component> </components>