From k-park @ gendai.co.jp Wed Mar 4 10:28:41 2015
From: k-park @ gendai.co.jp (Park Kun)
Date: Wed, 4 Mar 2015 10:28:41 +0900
Subject: [fess-user 968]
=?iso-2022-jp?b?GyRCJS8lbSE8JWs9JE19OGUkTiUzJV8lQyVIIT86R0UsGyhC?=
=?iso-2022-jp?b?GyRCMj0kckw1OHoyPSQ5JGtKfUshJHI2NSQoJEYkLyRAGyhC?=
=?iso-2022-jp?b?GyRCJDUkJCEjGyhC?=
Message-ID: <003801d0561a$8c361f40$a4a25dc0$@gendai.co.jp>
菅谷様、
いつも大変お世話になっております。朴です。
現在SSDにインデックスを格納していますが、予算制約から1TBしか用意できず、
そこに、600Gほどのインデックスを無理やり入れております。
そうすると、コミットまたは最適化の際、Javaがディスク容量不足を警告しシステム
がパンクします。
(場合によっては、インデックスデータが破損)
解決策として、HDDにデータを書き出し、クロール→最適化が終わったらSSDに戻す作
業を繰り返して
対応していますが、この方法だとサービス停止時間が気になります。
そこで、クロール後の自動コミット/最適化を無効にできないか伺うところでござい
ます。
SSDなので、最適化までしなくても検索がそこそこ速いし、コミットは以下の構成で
やらしております。
15000
true
1000
クロール後のコミット/最適化さえ発動されなければ、HDDとSSD間の往復は1ヶ月一
度ほどに抑えられるかと思いますが〜
どのツボを押せばよろしいでしょうか?
以上、よろしくお願いします。
-----Original Message-----
From: fess-user-bounces @ lists.sourceforge.jp
[mailto:fess-user-bounces @ lists.sourceforge.jp] On Behalf Of
fess-user-request @ lists.sourceforge.jp
Sent: Thursday, February 26, 2015 12:01 PM
To: fess-user @ lists.sourceforge.jp
Subject: Fess-user まとめ読み, 59 巻, 5 号
Fess-user メーリングリストへの投稿は以下のアドレスに送ってください.
fess-user @ lists.sourceforge.jp
Webブラウザを使って入退会するには以下のURLにどうぞ.
http://lists.sourceforge.jp/mailman/listinfo/fess-user
メールを使う場合,件名(Subject:)または本文に help と書いて以下の
アドレスに送信してください.
fess-user-request @ lists.sourceforge.jp
メーリングリストの管理者への連絡は,以下のアドレスにお願いします.
fess-user-owner @ lists.sourceforge.jp
返信する場合,件名を書き直して内容がわかるようにしてください.
そのままだと,以下のようになってしまいます. "Re: Fess-user
まとめ読み, XX 巻 XX 号"
本日の話題:
1. [fess-user 966] Re: クロール対象とするパスの取り扱いについて
(Shinsuke Sugaya)
2. [fess-user 967] Re:
登録サイトからクロールされたドキュメントの数を表示できないでしょうか?
(Shinsuke Sugaya)
----------------------------------------------------------------------
Message: 1
Date: Thu, 26 Feb 2015 11:06:22 +0900
From: Shinsuke Sugaya
Subject: [fess-user 966] Re: クロール対象とするパスの取り扱いについて
To: fess-user @ lists.sourceforge.jp
Message-ID:
Content-Type: text/plain; charset=UTF-8
菅谷です。
クロール対象とするパスに設定すると、それ以外が
*クロール*の対象外になります。ですので、txt以外は
クロールしないため、URLに明示的に指定しなければ
取得することはありません。おそらく実施されたいことは
検索の対象とするパスに記述することかと思います。
これにより、URLに記述したポイントからクロールして
txtだけをインデックスすることになります。
shinsuke
2015年2月21日 17:32 斎藤 :
> 斎藤です。
>
> お世話になります。
>
> 「クロール対象とするパス」の指定で、正規表現のパスパターンを指定している
のですが、
> クロール対象と認識してくれません。
> 逆に、「クロール対象から除外するパス」に同じ内容を指定してみたら、対象外
と認識してく れます。
> 「クロール対象とするパス」の動作が思うように動作していない様に感じるので
すが、
> なにか間違いがあるのでしょうか?
>
> 1)パターン1
> 「クロール対象とするパス」に以下の設定を行いました。
> .*\.txt$
>
> この時のログは以下の通りです。
>
> 2015-02-21 17:02:40,431 [WebFsCrawler] INFO Included Path: .*\.txt$
> 2015-02-21 17:03:40,544 [IndexUpdater] INFO Processing 0/0 docs (DB:
19ms)
> 2015-02-21 17:04:40,528 [IndexUpdater] INFO Processing 0/0 docs (DB: 3ms)
> 2015-02-21 17:05:40,528 [IndexUpdater] INFO Processing 0/0 docs (DB: 2ms)
>
> 2)パターン2
> 逆に、「クロール対象から除外するパス」に同じ内容の設定を入れました。
> .*\.txt$
>
> 2015-02-21 17:11:40,867 [WebFsCrawler] INFO Excluded Path: .*\.txt$
> 2015-02-21 17:11:41,061 [Robot-20150221171137-1-3] INFO Crawling URL:
> smb://hogehoge/share/P14/f/P_HDD/test/
> 2015-02-21 17:11:41,247 [Robot-20150221171137-1-3] INFO Crawling URL:
> smb://hogehoge/share/P14/f/P_HDD/test/2-2.jpg
>
>
> その他気が付いたこととして、パターン1でクロール対象を指定した際に認識さ
れなかった
> 訳ですが、対象となるパスが存在しない場合にも拘わらず、やたらと長い時間ク
ロールを
> 行っていました。
> 対象となるファイルが無いのに時間が掛かっている理由がよくわかりません。
> 対象フォルダーに保存しているファイルは100KB程度の小さなファイル2本(jpg
とtxt)だけです。
>
> 正規表現が間違っているとしたら、パターン2が正しく動作している意味が解ら
ず、
> 悩んでいます。
>
> 以上
>
>
> _______________________________________________
> Fess-user mailing list
> Fess-user @ lists.sourceforge.jp
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>
------------------------------
Message: 2
Date: Thu, 26 Feb 2015 11:11:48 +0900
From: Shinsuke Sugaya
Subject: [fess-user 967] Re:
登録サイトからクロールされたドキュメントの数を表示できないでしょう
か?
To: fess-user @ lists.sourceforge.jp
Message-ID:
Content-Type: text/plain; charset=UTF-8
菅谷です。
ありがとうございます。
Solrから取り出せば取れると思うのですが、
現状、インデックスに対する統計情報的なものを
出していないので、Fess 10 あたりで、その辺の
改善を検討させていただきます。
shinsuke
2015年2月23日 12:37 Park Kun :
> 久しぶりです朴です。
>
> 最近9.3が非常に安定して動くので問い合わせが少なくなっております。
> そこで、「こんな機能がほしい」的なスレを書かせていただきます。
>
> Fessに登録したウェブサイトのリストを出すページ
> (admin/webCrawlingConfig/index)に、
> それぞれのサイトからクロールされたドキュメントの数を表示させる方法はありま
せ
> んか?
> 上記のことができれば、サイト別にクロールの深さ・数に関する調整、
> またはなかなかクロールされないサイトに関して対策立てるなどいろいろ使えそう
で
> すが?
>
> こちらの運用規模は、650サイト&ファイルサーバに対するインデックスで、
> Solrのデータが500G超えております。だった32Gのメモリで回していますが
> 遅くはなるもののパンクはしません。(^_^;)
>
> 以上、よろしくお願いします。
>
> _______________________________________________
> Fess-user mailing list
> Fess-user @ lists.sourceforge.jp
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
------------------------------
_______________________________________________
Fess-user mailing list
Fess-user @ lists.sourceforge.jp
http://lists.sourceforge.jp/mailman/listinfo/fess-user
以上: Fess-user まとめ読み, 59 巻, 5 号
***************************************
From shinsuke @ yahoo.co.jp Thu Mar 12 10:00:31 2015
From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya)
Date: Thu, 12 Mar 2015 10:00:31 +0900
Subject: [fess-user 969] Re:
=?utf-8?b?44Kv44Ot44O844Or5L+u55CG5b6M44Gu44Kz44Of44OD44OI?=
=?utf-8?b?77yP5pyA6YGp5YyW44KS54Sh5Yq55YyW44GZ44KL5pa55rOV44KS5pWZ?=
=?utf-8?b?44GI44Gm44GP44Gg44GV44GE44CC?=
In-Reply-To: <003801d0561a$8c361f40$a4a25dc0$@gendai.co.jp>
References: <003801d0561a$8c361f40$a4a25dc0$@gendai.co.jp>
Message-ID:
菅谷です。
クロール後のコミット/最適化の実行の設定は
ジョブ管理でクロールのジョブが
return container.getComponent("crawlJob").execute(executor);
という感じになっていると思いますが、
return container.getComponent("crawlJob").jobExecutor(executor).execute();
とすれば良いように思います。
shinsuke
2015年3月4日 10:28 Park Kun :
> 菅谷様、
>
> いつも大変お世話になっております。朴です。
>
> 現在SSDにインデックスを格納していますが、予算制約から1TBしか用意できず、
> そこに、600Gほどのインデックスを無理やり入れております。
> そうすると、コミットまたは最適化の際、Javaがディスク容量不足を警告しシステム
> がパンクします。
> (場合によっては、インデックスデータが破損)
>
> 解決策として、HDDにデータを書き出し、クロール→最適化が終わったらSSDに戻す作
> 業を繰り返して
> 対応していますが、この方法だとサービス停止時間が気になります。
>
> そこで、クロール後の自動コミット/最適化を無効にできないか伺うところでござい
> ます。
> SSDなので、最適化までしなくても検索がそこそこ速いし、コミットは以下の構成で
> やらしております。
>
>
> 15000
> true
>
>
>
> 1000
>
>
> クロール後のコミット/最適化さえ発動されなければ、HDDとSSD間の往復は1ヶ月一
> 度ほどに抑えられるかと思いますが?
> どのツボを押せばよろしいでしょうか?
>
> 以上、よろしくお願いします。
>
>
>
>
> -----Original Message-----
> From: fess-user-bounces @ lists.sourceforge.jp
> [mailto:fess-user-bounces @ lists.sourceforge.jp] On Behalf Of
> fess-user-request @ lists.sourceforge.jp
> Sent: Thursday, February 26, 2015 12:01 PM
> To: fess-user @ lists.sourceforge.jp
> Subject: Fess-user まとめ読み, 59 巻, 5 号
>
> Fess-user メーリングリストへの投稿は以下のアドレスに送ってください.
> fess-user @ lists.sourceforge.jp
>
> Webブラウザを使って入退会するには以下のURLにどうぞ.
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
> メールを使う場合,件名(Subject:)または本文に help と書いて以下の
> アドレスに送信してください.
> fess-user-request @ lists.sourceforge.jp
>
> メーリングリストの管理者への連絡は,以下のアドレスにお願いします.
> fess-user-owner @ lists.sourceforge.jp
>
> 返信する場合,件名を書き直して内容がわかるようにしてください.
> そのままだと,以下のようになってしまいます. "Re: Fess-user
> まとめ読み, XX 巻 XX 号"
>
>
> 本日の話題:
>
> 1. [fess-user 966] Re: クロール対象とするパスの取り扱いについて
> (Shinsuke Sugaya)
> 2. [fess-user 967] Re:
> 登録サイトからクロールされたドキュメントの数を表示できないでしょうか?
> (Shinsuke Sugaya)
>
>
> ----------------------------------------------------------------------
>
> Message: 1
> Date: Thu, 26 Feb 2015 11:06:22 +0900
> From: Shinsuke Sugaya
> Subject: [fess-user 966] Re: クロール対象とするパスの取り扱いについて
> To: fess-user @ lists.sourceforge.jp
> Message-ID:
>
> Content-Type: text/plain; charset=UTF-8
>
> 菅谷です。
>
> クロール対象とするパスに設定すると、それ以外が
> *クロール*の対象外になります。ですので、txt以外は
> クロールしないため、URLに明示的に指定しなければ
> 取得することはありません。おそらく実施されたいことは
> 検索の対象とするパスに記述することかと思います。
> これにより、URLに記述したポイントからクロールして
> txtだけをインデックスすることになります。
>
> shinsuke
>
>
>
> 2015年2月21日 17:32 斎藤 :
>> 斎藤です。
>>
>> お世話になります。
>>
>> 「クロール対象とするパス」の指定で、正規表現のパスパターンを指定している
> のですが、
>> クロール対象と認識してくれません。
>> 逆に、「クロール対象から除外するパス」に同じ内容を指定してみたら、対象外
> と認識してく れます。
>> 「クロール対象とするパス」の動作が思うように動作していない様に感じるので
> すが、
>> なにか間違いがあるのでしょうか?
>>
>> 1)パターン1
>> 「クロール対象とするパス」に以下の設定を行いました。
>> .*\.txt$
>>
>> この時のログは以下の通りです。
>>
>> 2015-02-21 17:02:40,431 [WebFsCrawler] INFO Included Path: .*\.txt$
>> 2015-02-21 17:03:40,544 [IndexUpdater] INFO Processing 0/0 docs (DB:
> 19ms)
>> 2015-02-21 17:04:40,528 [IndexUpdater] INFO Processing 0/0 docs (DB: 3ms)
>> 2015-02-21 17:05:40,528 [IndexUpdater] INFO Processing 0/0 docs (DB: 2ms)
>>
>> 2)パターン2
>> 逆に、「クロール対象から除外するパス」に同じ内容の設定を入れました。
>> .*\.txt$
>>
>> 2015-02-21 17:11:40,867 [WebFsCrawler] INFO Excluded Path: .*\.txt$
>> 2015-02-21 17:11:41,061 [Robot-20150221171137-1-3] INFO Crawling URL:
>> smb://hogehoge/share/P14/f/P_HDD/test/
>> 2015-02-21 17:11:41,247 [Robot-20150221171137-1-3] INFO Crawling URL:
>> smb://hogehoge/share/P14/f/P_HDD/test/2-2.jpg
>>
>>
>> その他気が付いたこととして、パターン1でクロール対象を指定した際に認識さ
> れなかった
>> 訳ですが、対象となるパスが存在しない場合にも拘わらず、やたらと長い時間ク
> ロールを
>> 行っていました。
>> 対象となるファイルが無いのに時間が掛かっている理由がよくわかりません。
>> 対象フォルダーに保存しているファイルは100KB程度の小さなファイル2本(jpg
> とtxt)だけです。
>>
>> 正規表現が間違っているとしたら、パターン2が正しく動作している意味が解ら
> ず、
>> 悩んでいます。
>>
>> 以上
>>
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-user @ lists.sourceforge.jp
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>
>
> ------------------------------
>
> Message: 2
> Date: Thu, 26 Feb 2015 11:11:48 +0900
> From: Shinsuke Sugaya
> Subject: [fess-user 967] Re:
> 登録サイトからクロールされたドキュメントの数を表示できないでしょう
> か?
> To: fess-user @ lists.sourceforge.jp
> Message-ID:
>
> Content-Type: text/plain; charset=UTF-8
>
> 菅谷です。
>
> ありがとうございます。
> Solrから取り出せば取れると思うのですが、
> 現状、インデックスに対する統計情報的なものを
> 出していないので、Fess 10 あたりで、その辺の
> 改善を検討させていただきます。
>
> shinsuke
>
>
> 2015年2月23日 12:37 Park Kun :
>> 久しぶりです朴です。
>>
>> 最近9.3が非常に安定して動くので問い合わせが少なくなっております。
>> そこで、「こんな機能がほしい」的なスレを書かせていただきます。
>>
>> Fessに登録したウェブサイトのリストを出すページ
>> (admin/webCrawlingConfig/index)に、
>> それぞれのサイトからクロールされたドキュメントの数を表示させる方法はありま
> せ
>> んか?
>> 上記のことができれば、サイト別にクロールの深さ・数に関する調整、
>> またはなかなかクロールされないサイトに関して対策立てるなどいろいろ使えそう
> で
>> すが?
>>
>> こちらの運用規模は、650サイト&ファイルサーバに対するインデックスで、
>> Solrのデータが500G超えております。だった32Gのメモリで回していますが
>> 遅くはなるもののパンクはしません。(^_^;)
>>
>> 以上、よろしくお願いします。
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-user @ lists.sourceforge.jp
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>
> ------------------------------
>
> _______________________________________________
> Fess-user mailing list
> Fess-user @ lists.sourceforge.jp
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>
>
> 以上: Fess-user まとめ読み, 59 巻, 5 号
> ***************************************
>
> _______________________________________________
> Fess-user mailing list
> Fess-user @ lists.sourceforge.jp
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
From k-park @ gendai.co.jp Thu Mar 12 16:17:58 2015
From: k-park @ gendai.co.jp (Park Kun)
Date: Thu, 12 Mar 2015 16:17:58 +0900
Subject: [fess-user 970] Re:
=?iso-2022-jp?b?RmVzcy11c2VyIBskQiReJEgkYUZJJF8bKEIsIDYwIA==?=
=?iso-2022-jp?b?GyRCNCwbKEIsIDIgGyRCOWYbKEI=?=
In-Reply-To:
References:
Message-ID: <000201d05c94$ab311460$01933d20$@gendai.co.jp>
菅谷様、
助かりました。早速試してみます。
以上、どうもありがとうございました。
-----Original Message-----
From: fess-user-bounces @ lists.sourceforge.jp
[mailto:fess-user-bounces @ lists.sourceforge.jp] On Behalf Of
fess-user-request @ lists.sourceforge.jp
Sent: Thursday, March 12, 2015 12:00 PM
To: fess-user @ lists.sourceforge.jp
Subject: Fess-user まとめ読み, 60 巻, 2 号
Fess-user メーリングリストへの投稿は以下のアドレスに送ってください.
fess-user @ lists.sourceforge.jp
Webブラウザを使って入退会するには以下のURLにどうぞ.
http://lists.sourceforge.jp/mailman/listinfo/fess-user
メールを使う場合,件名(Subject:)または本文に help と書いて以下の
アドレスに送信してください.
fess-user-request @ lists.sourceforge.jp
メーリングリストの管理者への連絡は,以下のアドレスにお願いします.
fess-user-owner @ lists.sourceforge.jp
返信する場合,件名を書き直して内容がわかるようにしてください.
そのままだと,以下のようになってしまいます. "Re: Fess-user
まとめ読み, XX 巻 XX 号"
本日の話題:
1. [fess-user 969] Re:
クロール修理後のコミット/最適化を無効化する方法を教えてください。
(Shinsuke Sugaya)
----------------------------------------------------------------------
Message: 1
Date: Thu, 12 Mar 2015 10:00:31 +0900
From: Shinsuke Sugaya
Subject: [fess-user 969] Re:
クロール修理後のコミット/最適化を無効化する方法を教えてください。
To: fess-user @ lists.sourceforge.jp
Message-ID:
Content-Type: text/plain; charset=UTF-8
菅谷です。
クロール後のコミット/最適化の実行の設定は
ジョブ管理でクロールのジョブが
return container.getComponent("crawlJob").execute(executor);
という感じになっていると思いますが、
return container.getComponent("crawlJob").jobExecutor(executor).execute();
とすれば良いように思います。
shinsuke
2015年3月4日 10:28 Park Kun :
> 菅谷様、
>
> いつも大変お世話になっております。朴です。
>
> 現在SSDにインデックスを格納していますが、予算制約から1TBしか用意できず、
> そこに、600Gほどのインデックスを無理やり入れております。
> そうすると、コミットまたは最適化の際、Javaがディスク容量不足を警告しシステ
ム
> がパンクします。
> (場合によっては、インデックスデータが破損)
>
> 解決策として、HDDにデータを書き出し、クロール→最適化が終わったらSSDに戻す
作
> 業を繰り返して
> 対応していますが、この方法だとサービス停止時間が気になります。
>
> そこで、クロール後の自動コミット/最適化を無効にできないか伺うところでござ
い
> ます。
> SSDなので、最適化までしなくても検索がそこそこ速いし、コミットは以下の構成
で
> やらしております。
>
>
> 15000
> true
>
>
>
> 1000
>
>
> クロール後のコミット/最適化さえ発動されなければ、HDDとSSD間の往復は1ヶ月
一
> 度ほどに抑えられるかと思いますが?
> どのツボを押せばよろしいでしょうか?
>
> 以上、よろしくお願いします。
>
>
>
>
> -----Original Message-----
> From: fess-user-bounces @ lists.sourceforge.jp
> [mailto:fess-user-bounces @ lists.sourceforge.jp] On Behalf Of
> fess-user-request @ lists.sourceforge.jp
> Sent: Thursday, February 26, 2015 12:01 PM
> To: fess-user @ lists.sourceforge.jp
> Subject: Fess-user まとめ読み, 59 巻, 5 号
>
> Fess-user メーリングリストへの投稿は以下のアドレスに送ってください.
> fess-user @ lists.sourceforge.jp
>
> Webブラウザを使って入退会するには以下のURLにどうぞ.
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
> メールを使う場合,件名(Subject:)または本文に help と書いて以下の
> アドレスに送信してください.
> fess-user-request @ lists.sourceforge.jp
>
> メーリングリストの管理者への連絡は,以下のアドレスにお願いします.
> fess-user-owner @ lists.sourceforge.jp
>
> 返信する場合,件名を書き直して内容がわかるようにしてください.
> そのままだと,以下のようになってしまいます. "Re: Fess-user
> まとめ読み, XX 巻 XX 号"
>
>
> 本日の話題:
>
> 1. [fess-user 966] Re: クロール対象とするパスの取り扱いについて
> (Shinsuke Sugaya)
> 2. [fess-user 967] Re:
> 登録サイトからクロールされたドキュメントの数を表示できないでしょう
か?
> (Shinsuke Sugaya)
>
>
> ----------------------------------------------------------------------
>
> Message: 1
> Date: Thu, 26 Feb 2015 11:06:22 +0900
> From: Shinsuke Sugaya
> Subject: [fess-user 966] Re: クロール対象とするパスの取り扱いについて
> To: fess-user @ lists.sourceforge.jp
> Message-ID:
>
>
> Content-Type: text/plain; charset=UTF-8
>
> 菅谷です。
>
> クロール対象とするパスに設定すると、それ以外が
> *クロール*の対象外になります。ですので、txt以外は
> クロールしないため、URLに明示的に指定しなければ
> 取得することはありません。おそらく実施されたいことは
> 検索の対象とするパスに記述することかと思います。
> これにより、URLに記述したポイントからクロールして
> txtだけをインデックスすることになります。
>
> shinsuke
>
>
>
> 2015年2月21日 17:32 斎藤 :
>> 斎藤です。
>>
>> お世話になります。
>>
>> 「クロール対象とするパス」の指定で、正規表現のパスパターンを指定してい
る
> のですが、
>> クロール対象と認識してくれません。
>> 逆に、「クロール対象から除外するパス」に同じ内容を指定してみたら、対象
外
> と認識してく れます。
>> 「クロール対象とするパス」の動作が思うように動作していない様に感じるの
で
> すが、
>> なにか間違いがあるのでしょうか?
>>
>> 1)パターン1
>> 「クロール対象とするパス」に以下の設定を行いました。
>> .*\.txt$
>>
>> この時のログは以下の通りです。
>>
>> 2015-02-21 17:02:40,431 [WebFsCrawler] INFO Included Path: .*\.txt$
>> 2015-02-21 17:03:40,544 [IndexUpdater] INFO Processing 0/0 docs (DB:
> 19ms)
>> 2015-02-21 17:04:40,528 [IndexUpdater] INFO Processing 0/0 docs (DB:
>> 3ms)
>> 2015-02-21 17:05:40,528 [IndexUpdater] INFO Processing 0/0 docs (DB:
>> 2ms)
>>
>> 2)パターン2
>> 逆に、「クロール対象から除外するパス」に同じ内容の設定を入れました。
>> .*\.txt$
>>
>> 2015-02-21 17:11:40,867 [WebFsCrawler] INFO Excluded Path: .*\.txt$
>> 2015-02-21 17:11:41,061 [Robot-20150221171137-1-3] INFO Crawling URL:
>> smb://hogehoge/share/P14/f/P_HDD/test/
>> 2015-02-21 17:11:41,247 [Robot-20150221171137-1-3] INFO Crawling URL:
>> smb://hogehoge/share/P14/f/P_HDD/test/2-2.jpg
>>
>>
>> その他気が付いたこととして、パターン1でクロール対象を指定した際に認識さ
> れなかった
>> 訳ですが、対象となるパスが存在しない場合にも拘わらず、やたらと長い時間ク
> ロールを
>> 行っていました。
>> 対象となるファイルが無いのに時間が掛かっている理由がよくわかりません。
>> 対象フォルダーに保存しているファイルは100KB程度の小さなファイル2本
(jpg
> とtxt)だけです。
>>
>> 正規表現が間違っているとしたら、パターン2が正しく動作している意味が解ら
> ず、
>> 悩んでいます。
>>
>> 以上
>>
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-user @ lists.sourceforge.jp
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>
>
> ------------------------------
>
> Message: 2
> Date: Thu, 26 Feb 2015 11:11:48 +0900
> From: Shinsuke Sugaya
> Subject: [fess-user 967] Re:
> 登録サイトからクロールされたドキュメントの数を表示できないでしょう
> か?
> To: fess-user @ lists.sourceforge.jp
> Message-ID:
>
>
> Content-Type: text/plain; charset=UTF-8
>
> 菅谷です。
>
> ありがとうございます。
> Solrから取り出せば取れると思うのですが、
> 現状、インデックスに対する統計情報的なものを
> 出していないので、Fess 10 あたりで、その辺の
> 改善を検討させていただきます。
>
> shinsuke
>
>
> 2015年2月23日 12:37 Park Kun :
>> 久しぶりです朴です。
>>
>> 最近9.3が非常に安定して動くので問い合わせが少なくなっております。
>> そこで、「こんな機能がほしい」的なスレを書かせていただきます。
>>
>> Fessに登録したウェブサイトのリストを出すページ
>> (admin/webCrawlingConfig/index)に、
>> それぞれのサイトからクロールされたドキュメントの数を表示させる方法はあり
ま
> せ
>> んか?
>> 上記のことができれば、サイト別にクロールの深さ・数に関する調整、
>> またはなかなかクロールされないサイトに関して対策立てるなどいろいろ使えそ
う
> で
>> すが?
>>
>> こちらの運用規模は、650サイト&ファイルサーバに対するインデックスで、
>> Solrのデータが500G超えております。だった32Gのメモリで回していますが
>> 遅くはなるもののパンクはしません。(^_^;)
>>
>> 以上、よろしくお願いします。
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-user @ lists.sourceforge.jp
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>
> ------------------------------
>
> _______________________________________________
> Fess-user mailing list
> Fess-user @ lists.sourceforge.jp
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>
>
> 以上: Fess-user まとめ読み, 59 巻, 5 号
> ***************************************
>
> _______________________________________________
> Fess-user mailing list
> Fess-user @ lists.sourceforge.jp
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
------------------------------
_______________________________________________
Fess-user mailing list
Fess-user @ lists.sourceforge.jp
http://lists.sourceforge.jp/mailman/listinfo/fess-user
以上: Fess-user まとめ読み, 60 巻, 2 号
***************************************