[fess-user 478] Re: 差分クロール:長い日本語ファイル名 URL が必ずインデックス更新される件

Back to archive index

Shinsuke Sugaya shins****@yahoo*****
2011年 4月 29日 (金) 17:30:41 JST


菅谷です.

遅くなってしまいましたが,
最新のスナップショットで対応しました.
4.0 のファイルを差し替えて動くかわかりませんが
以下のファイルを変更しました.

webapps/fess/WEB-INF/classes/jp/sf/fess/action/admin/SearchListAction$1.class
webapps/fess/WEB-INF/classes/jp/sf/fess/action/admin/SearchListAction.class
webapps/fess/WEB-INF/classes/jp/sf/fess/robot/FessS2RobotThread.class

よろしくお願いいたします.

shinsuke

2011年4月10日20:27  <limol****@nifty*****>:
> クニカタです。お世話になっております。
>
> お返事ありがとうございます。
> 期待しております!
>
> ---
> 菅谷さんのすばやい対応と、的確なサポート等から、
> プロジェクトに対する意気込みみたいなものが
> 伝わってきますな。
> これからも、よろしくお願いいたします。
> 応援しています〜
>
> ----- Original Message -----
>>Date: Sun, 10 Apr 2011 10:47:58 +0900
>>From: Shinsuke Sugaya <shins****@yahoo*****>
>>To: fess-****@lists*****
>>Subject: [fess-user 463] Re:
>>       差分クロール:長い日本語ファイル名 URL が必ずインデックス更新される件
>>
>>
>>菅谷です。
>>
>>ご指摘いただきありがとうございます。
>>Solrのバージョンを上げれば、設定で回避できそうな気が
>>しますが、Fess 4.x では Fess 用の Solr プラグインなどで
>>対応できないかを検討したいと思います。ですので、申し訳
>>ありませんが少々お待ちください…。
>>
>>shinsuke
>>
>>
>>2011年4月8日20:06  <limol****@nifty*****>:
>>> クニカタです。お世話になっております。
>>>
>>> Fess4.0で差分クロールのテスト中、標記状況に遭遇しました。
>>>
>>> 前回クロール時からファイル内容は更新されていないのですが、
>>> 必ず毎回インデックスが登録されているファイルがいくつかあり
>>> ました。
>>> 共通している点は、長い日本語のファイル名ということでした。
>>>
>>> 調査したところ、該当の長いファイル名のものについては、
>>> 更新の有無を確認するためのSolrへの問い合わせ結果
>>> 件数が0(hits=0)で返るため、毎回登録されていました。
>>>
>>> 以下、ざっと確認した状況をまとめます。
>>> ----
>>> ●環境とクロール設定
>>> OS : Windows(XPと2003)
>>> 差分クロール : 有効
>>> インデックスの有効期限 : なし
>>> ファイルシステムクロール-ブラウザ : PC
>>>
>>> ●OKケースだった対象ファイル
>>> 内容の更新がない場合、再クロール対象とならない(Solrから「hits=1」が返る)
>>> 【ファイルパス】
>>> E:\DocumentFiles\FileNameLen\
>>> 022_■いうえおあいうえお■いうえおあいうえお■い.txt
>>> 【id】
>>> file:/E:/DocumentFiles/FileNameLen/022_%E2%96%A0%E3%81%84%E3%81%86%E3%81
>>> %88%E3%81%8A%E3%81%82%E3%81%84%E3%81%86%E3%81%88%E3%81%8A%E2%96%A0%E3%81
>>> %84%E3%81%86%E3%81%88%E3%81%8A%E3%81%82%E3%81%84%E3%81%86%E3%81%88%E3%81
>>> %8A%E2%96%A0%E3%81%84.txt;type=pc
>>>
>>> ●NGケースの対象ファイル
>>> 内容の更新がない場合でも、再クロール対象となってしまった(Solrから
>>> 「hits=0」が返る)
>>> 【ファイルパス】
>>> E:\DocumentFiles\FileNameLen\
>>> 023_■いうえおあいうえお■いうえおあいうえお■いう.txt
>>> 【id】
>>> file:/E:/DocumentFiles/FileNameLen/023_%E2%96%A0%E3%81%84%E3%81%86%E3%81
>>> %88%E3%81%8A%E3%81%82%E3%81%84%E3%81%86%E3%81%88%E3%81%8A%E2%96%A0%E3%81
>>> %84%E3%81%86%E3%81%88%E3%81%8A%E3%81%82%E3%81%84%E3%81%86%E3%81%88%E3%81
>>> %8A%E2%96%A0%E3%81%84%E3%81%86.txt;type=pc
>>>
>>> ----
>>> ・上記OKケースより短い日本語ファイル名は、OK
>>> 上記NGケースより長い日本語ファイル名は、やはりNG
>>> となっていましたので、ここらへんが境界なのではないか
>>> と思ってます。
>>>
>>> ・solr管理画面から、「id:"〜該当の長いid〜"」
>>> で検索した場合も、結果0件となっていました。
>>> ので、Solr側の問題なんだと思ってます。
>>>
>>> Solr側の設定などで、回避できる方法をご存知で
>>> あればご教授いただきたく、よろしくお願いいたします〜
>>>
>>> _______________________________________________
>>> Fess-user mailing list
>>> Fess-****@lists*****
>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>>
>>
>>_______________________________________________
>>Fess-user mailing list
>>Fess-****@lists*****
>>http://lists.sourceforge.jp/mailman/listinfo/fess-user
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>




Fess-user メーリングリストの案内
Back to archive index