[fess-user 71] Re: クロール中のはずが3時間ほど何も起こらないのですが...

Back to archive index

Masayuki Shibata mshib****@shima*****
2010年 1月 6日 (水) 11:48:04 JST


柴田@亀岡市です。
現象再現のため、昨日と同じバージョンで試しています。

条件もほぼ同じ (ロール設定のテストのためロール svnuser を設定
してみた... という状態が差異) ですが、クロールを開始してから
ちょっと忙しくて (仕事中に走らせてますので) 管理画面を開かず
にいたら2時間ほどで 4000件までドキュメント数が行ってました。

ところが管理画面を開いた (4000件也を確認) 後、ブラウザ上ログ
アウトしてそのままほかのサイトをしばらく見ていたところ、
Tomcat のターミナル出力にいままで順調に表示されていた

情報: {add=[http://...

...のログがしばらく出てこなくなっていました。

以下ターミナル出力の状況です。1行目までずっと順調で2行目か
ら管理画面を開けたときに出る文字列を表示してます。

10:34 ごろに 4000件也を確認しログアウトし、10:52 ごろにターミ
ナルに何も出てこないのを再度ログインして確認。

ログアウトしてブラウザを閉じたところ何やら出力されています。
#Found a TextHeaderAtom not... の行です。

fess.out のログの方を見ると画面に出てなくても順調にクロールし
ているようなのですが... 何故かターミナルには出てこなくなってい
ました。そういうもののような気もしますが、少し長いような...

...でその後、しばらくして復活はしているのですが、以下の 10-17
行目に表示されている 3999 (4000 - 1) にまつわる出力行が少し気
になります。

不具合ではないかも知れませんが、一応お知らせしておきます。
#現在 5000件まで行っているので、現象再現するかもう少ししたら
#結果が出ます。後ほどまたご報告します。

01| 情報: {add=[http://{省略: URL の羅列}...;type=pc;role=svnuser, ...(3 more)]} 0 94
02| 2010/01/06 10:34:45 org.apache.solr.core.SolrCore execute
03| 情報: [] webapp=/solr path=/update params={wt=javabin&version=2.2} status=0 QTime=94
04| 2010/01/06 10:36:13 org.apache.solr.core.SolrCore execute
05| 情報: [] webapp=/solr path=/select params={facet=true&sort=segment+desc&q=*:
*&facet.field=segment&wt=javabin&version=2.2} hits=12158 status=0 QTime=94
06| 2010/01/06 10:52:02 org.apache.solr.core.SolrCore execute
07| 情報: [] webapp=/solr path=/select params={facet=true&sort=segment+desc&wt=javabin&version=
2.2&q=*:*&facet.field=segment} hits=12158 status=0 QTime=0
08| 2010/01/06 10:52:44 org.apache.solr.core.SolrCore execute
09| 情報: [] webapp=/solr path=/select params={facet=true&sort=segment+desc&wt=javabin&version=
2.2&q=*:*&facet.field=segment} hits=12158 status=0 QTime=0
10| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999
11| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999
12| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999
13| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999
14| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999
15| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999
16| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999
17| Found a TextHeaderAtom not followed by a TextBytesAtom or TextCharsAtom: Followed by 3999

>菅谷です。
>
>情報をありがとうございます。
>
>> #unprocessed documents は 400 台のようです。
>
>これくらいで3時間ですと、期待外の動きです…。
>
>ドキュメントサイズによると思いますが、「Sent 11
>documents.〜」で Solr への投入が秒レベルの時間が
>かかるのも気になります。私のテストデータですと
>(Apache 系プロジェクトのソースコード)、数十ミリ秒で
>投入している感じです。もしかしたら、
>maxDocumentCacheSize を増やすのではなく、5とか
>減らすと良いかもしれません。
>
>あとは、クロール全般の「ドキュメント数毎にコミット 」を
>500 とか減らしてしまってもよいかもしれません。
>
>3時間近く止まる件ですが、こちらの継続動作テストで
>全クロール停止のインデックス更新中に、管理画面で
>停止すると、止まらなくなる問題が発覚したので修正
>しました。(これでしたら、すいません…)
>
>http://sourceforge.jp/ticket/browse.php?group_id=4342&tid=20133
>
>あとは問題を絞り込んでいくためには対象部分の
>ログレベルを DEBUG にしていただけると、より
>分かってくるかと思います。webapps/fess/WEB-INF/
>classes/log4j.xml の
>
>  <logger name="jp.sf.fess.solr" >
>    <level value ="debug" />
>  </logger>
>
>をコメントアウトから出していただけると、IndexUpdaterが
>よりいろいろと出力します。
>
>> 以前 6000 を少し越えるところまで溜まった段階で時間切れで手動停
>> 止したことはありますので、何か条件が異なるのだと思います。
>
>対象データによるというのもありますが、現在、手元の
>テストデータでは 2 日くらいで 60 万件くらいはいけてます。
>さすがにここら辺で遅くなってきていますが…。
>
>shinsuke
>
>
>2010年1月5日19:34 Masayuki Shibata <mshib****@shima*****>:
>> 柴田@亀岡市です。
>>
>>>AuthChallengeProcessor のログを除いた、最後の数行ログは
>>>何になっているでしょうか?
>> ...
>>>しかし、その場合に3時間も返ってこないのは期待通り
>>>ではない感じです・・・。「You have XXX unprocessed
>>>documents.」のXXXがかなりの数になっていると別ですが。
>>>(数千など) あとは、「The execution time is XXXms.」の
>>>XXX (Solrにドキュメントを送って処理した時間) が大体
>>>どれくらいかも気になります。
>>
>> ファイル名 (URL) のみ伏せ字にしてますが、以下が生ログです。
>> #unprocessed documents は 400 台のようです。
>>
>> 2010-01-05 12:22:42,875 [Robot-20100105092954-1-5] INFO
>> org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: http://hostname/svn/project/XXXXXXXXXXXXXX/
>> 2010-01-05 12:22:42,890 [Robot-20100105092954-1-5] INFO
>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - digest authentication scheme 
selected
>> 2010-01-05 12:22:42,921 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Sent 11 documents.
>> The execution time is 593ms.
>> 2010-01-05 12:29:36,640 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Stopped all 
crawler
>> threads.  You have 497 unprocessed documents.
>> 2010-01-05 12:29:43,750 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Sending 11 
document
>> to a server.
>> 2010-01-05 12:29:43,906 [IndexUpdater] INFO
>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme 
selected
>> 2010-01-05 12:29:44,250 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Sent 11 documents.
>> The execution time is 500ms.
>> 2010-01-05 12:36:48,125 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Stopped all 
crawler
>> threads.  You have 487 unprocessed documents.
>> 2010-01-05 12:49:21,562 [http-8080-2] INFO
>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme 
selected
>> 2010-01-05 12:49:25,750 [http-8080-5] INFO
>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme 
selected
>> 2010-01-05 13:27:47,578 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Sending 11 
document
>> to a server.
>> 2010-01-05 13:27:47,953 [IndexUpdater] INFO
>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme 
selected
>> 2010-01-05 13:27:48,593 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Sent 11 documents.
>> The execution time is 1015ms.
>> 2010-01-05 14:01:57,734 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Stopped all 
crawler
>> threads.  You have 477 unprocessed documents.
>> 2010-01-05 14:08:13,906 [http-8080-5] INFO
>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme 
selected
>> 2010-01-05 14:08:17,281 [http-8080-5] INFO
>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme 
selected
>> 2010-01-05 14:11:18,875 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Sending 11 
document
>> to a server.
>> 2010-01-05 14:11:19,406 [IndexUpdater] INFO
>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme 
selected
>> 2010-01-05 14:11:20,187 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Sent 11 documents.
>> The execution time is 1312ms.
>> 2010-01-05 14:32:07,828 [http-8080-5] INFO
>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme 
selected
>> 2010-01-05 14:32:12,218 [http-8080-5] INFO
>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme 
selected
>> 2010-01-05 14:35:34,312 [http-8080-5] INFO
>> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme 
selected
>> ... (同じ内容のログが20行ほど続く)
>>
>>>あとは、Tomcat の logs/catalina.out に
>>>何か出ていないでしょうか?
>>
>> 黙り込む直前 14:11:20 頃まで 「情報: {add=[http://...」という
>> ログが出ているのですが、最後の3回分がかなり時間間隔が開いてい
>> ます。
>>
>> それ以前は1〜2秒間隔だったのが、最後の3つの間隔は1時間程度、
>> (その1つ前とは7分くらい) ですので、急激にのろくなった感じで
>> 止まっています。
>>
>> そのログの間に、クロール実行中の確認や、生きているかの確認のた
>> めの検索のログがはさまっているくらいで、特に不審なものは見あた
>> りません。
>>
>> 少しずつ設定をチューニングしているので同じ条件ではありませんが
>> 以前 6000 を少し越えるところまで溜まった段階で時間切れで手動停
>> 止したことはありますので、何か条件が異なるのだと思います。
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-****@lists*****
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>
>
>_______________________________________________
>Fess-user mailing list
>Fess-****@lists*****
>http://lists.sourceforge.jp/mailman/listinfo/fess-user
>




Fess-user メーリングリストの案内
Back to archive index