[Tep-j-general] Re: Slurpにインデックスされるには?

Back to archive index

hamada bungu****@leo*****
2004年 10月 12日 (火) 14:03:32 JST


こんにちわ。

On Tue, 12 Oct 2004 11:06:11 +0900
"茅野泰明@DB" <chino****@desig*****> wrote:

> ね。だとすれば、すでに登録されているページをわざわざクロールしにくるのも
> あまり意味はないような気がするのですが...

ホントそうですよね〜。わざわざ別にクロールする理由としては

・存在確認
・(トップページの)更新頻度確認

あたり(←そしてこれを表示順位に反映させる??)なんじゃないかな〜、とか
思うんですが、この辺はあくまでも当方の想像に過ぎません。

> てみることにします。それにしても、Googlebotとは挙動がまったく違うものな
> んですね。Googleではすでに2300ページほど登録されていますので。

ぜんぜん違いますね〜。当方は

> #!/bin/sh
> 
> LANG=C
> export LANG
> 
> GOOGLE=`grep -i -c 'Googlebot' /var/log/httpd/access_log`
> SLURP=`grep -i -c 'Slurp' /var/log/httpd/access_log`
> UPTIME=`uptime | awk '{print $3$4}' | sed -e "s/,//g"`
> 
> echo $GOOGLE
> echo $SLURP
> echo $UPTIME
> echo Robots Access Count

↑こんなスクリプトをMRTGから呼び出して各クローラーの動向をグラフ化してる
んすけども、GooglebotとSlurpのグラフは全然カタチが違います。

(ホントなら時間軸に対して微分した値を記録するべきなんでしょうけど、処理
が面倒くさかったので単純に行数をカウントしてます:^^;)

Slurpは、多少バラツキますけど、概ね

「常に左肩上がり」(MRTGの時間は右から左に流れるため)

で、グラフの傾き(=一定時間辺りの来訪回数)も、ほぼ一定です。従って、1
週間(でログがローテートする)の総来訪回数も、毎週大体同じくらい。

これに対し、Googlebotの来訪はメリハリがあります。

Googlebotは、1〜2週間ごとくらいに集中して来訪するする「崖」「山」の時
期と、傾きのゆるやかな「坂」や、クロール頻度が極端に下がる「平原」の時期
が交互に挟まるといった感じで、かなり違った挙動を示してます。

まぁ、この両者は1ヶ月毎くらいで平均すると、大体似た様な来訪数(=クロー
ル密度)になるんですが。

MSNbotは両者の中間的な挙動ですが、クロール密度が高いです。平均してSlurp
やGooglebotの2〜3倍くらいアクセスしてきてます。

はまだ






Tep-j-general メーリングリストの案内
Back to archive index