[fess-user 216] Re: 20010-05-17 SNAPSHOT のログで...

Back to archive index

Shinsuke Sugaya shins****@yahoo*****
2010年 5月 24日 (月) 11:30:54 JST


菅谷です。

調べてみました。
原因は 2010/1/1 というようなところを
1月1日のように表示形式を変換している
セルでした。この表示形式のフォーマットを
取得できないため、そのログが出力されて
います。そのファイル内にある他のセルの
文字列自体は取得できているようです。

この問題は、Fess というより Tika か POI を
何とかしないと厳しいと思うので、そちらに
対しての対応を検討します。

shinsuke


2010年5月21日9:33 Masayuki Shibata <mshib****@shima*****>:
> 柴田@亀岡市です。
>
> ひとつだけどう読んでも何を開発しているかわからないもの
> がありました。
>
> ファイル名だけがやばかったのでリネームしてあります。
>
> たまたま対象ファイル中で一番単純な表のファイルでエラー
> 行は1行だけ出力されているものです。
>
>>確かに Excel が多いです。全 15 ファイル中 13 あります。
>>
>>残り2個が Word ファイルですが、エラー行とかなり離れて上の方に登場
>>してます。Excel だと 2-3 行上を探せばたいがい見つかるのですが...
>>
>>残念ながらお出しできそうなファイルはありませんので、自分で目視で見
>>てみたのですが、何の変哲もないファイルに見えます。
>>#特徴を絞り込めませんでした。
>>
>>ログのエラー行も 1箇所から 928箇所まで千差万別です。
>>
>>単純な表を書いただけという Excel も混じってます。
>>#どうやってアプローチすべきか途方に暮れますね。
>>
>>>菅谷です。
>>>
>>>> そもそもどうやってファイルを特定するのでしょうか?
>>>
>>>ログに出ている [Robot-20100520113221-1-10] という
>>>部分の最後の数字がスレッドごとに異なります。
>>>ですので、[Robot-20100520113221-1-10] と出力されて
>>>いるものの中で、それの上に出ているものから特定できます。
>>>クロールしているものは INFO レベルで  Crawling URL: http://..
>>>という感じのログで出力されます。
>>>
>>>現在、POI 自体をバージョンアップしてあるので、Exception
>>>の内容を評価しなければならないと考えています。問題自体は
>>>POI の問題なので、なかなか対応も難しいところもありますが…。
>>>
>>>shinsuke
>>>
>>>
>>>2010年5月20日14:41 Masayuki Shibata <mshib****@shima*****>:
>>>> 柴田@亀岡市です。
>>>>
>>>>>MS Office 系のファイル(たぶん Excel)だと思いますが、
>>>> ...
>>>>>ファイルをいただけるようでしたら、確認させていただきたい
>>>>>と思います。
>>>>
>>>> 製品開発文書置き場の Subversion がクロール先に入っておりますの
>>>> でファイルをお出しできない可能性は高いですが...
>>>>
>>>> そもそもどうやってファイルを特定するのでしょうか?
>>>>
>>>> ログのその繰り返しが発生する直前の行に登場してくるものだと
>>>> Excel、Word 以外にも テキストやHTML (今回見たのは Subversion
>>>> のディレクトリリスティング画面) など色々なファイルタイプのもの
>>>> があります。
>>>>
>>>> 本日1回、Fess を更新してフルでクロールかけたところ 15 箇所で
>>>> これが発生しており、ざっとスクロールして見つけた 900行ほど繰り
>>>> 返すものだけかと思っておりましたら、2行とか 4行というものもあ
>>>> りました。
>>>> #スクロールしながら見ていて流れてしまってました。
>>>>
>>>> 中身も色々で、そもそもクロールしても情報が拾えずエラーメッセー
>>>> ジが出る類 (Excel ですとマクロを含んでいるので開いたときに確認
>>>> 画面が出るものは、クロールしようにも内容が拾えず、通常は Java
>>>> のエラーメッセージがログに出力されているようなものです) もあれ
>>>> ば、ごくごく普通に開くことのできる Excel、Word ファイルもあり
>>>> ます。
>>>>
>>>> _______________________________________________
>>>> Fess-user mailing list
>>>> Fess-****@lists*****
>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>>>
>>>
>>>_______________________________________________
>>>Fess-user mailing list
>>>Fess-****@lists*****
>>>http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>>
>>
>>_______________________________________________
>>Fess-user mailing list
>>Fess-****@lists*****
>>http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>
>




Fess-user メーリングリストの案内
Back to archive index