[Tep-j-general] セッションID付きURIとか

Back to archive index

hamada bungu****@leo*****
2005年 6月 10日 (金) 08:50:11 JST


こんにちわ。

GoogeGuySays(GoogleGuy=Googleの中のヒトの発言をまとめてくれてるサイト)
で、こんなのを見つけました。

Google Do's and Don'ts
http://www.markcarey.com/googleguy-says/archives/google-dos-and-donts.html

> So many sites use '&id=' with session IDs that Googlebot usually avoids
> urls with that parameter

「沢山のサイトでセッションIDの付いたURLを使ってるけど、Googlebotは通常パ
ラメーターの付いたURLを避ける」

経験則で大体解ってたことではありますが、やはりクローラーは引数付きのURL
が嫌いみたいです。

osCで言えばSpiderKillerと「SEARCH_ENGINE_FRIENDLY_URLS」の有効性が再び確
認されたということですが、先にも報告してるとおり

「最近のGoogleは“/”区切りの引数もちゃんと識別してる」

と思われるフシが有るので、今後はまた色々と変わってきちゃうかもしれず。

> Google Sitemap Generator for MS2は、DIR_WS_HTTP_CATALOG → 
> DIR_WS_CATALOGと置換(4箇所?)するだけでMS1Jでも動くっぽい

ウソでした(^_^;) 上記だけで一見上手くいくように見えるのですが、実際に出
来たsitemap.xmlをGooglebotに喰ってもらうと、暫〜く経ってから

「無効な時間を含んでます」

と、ハネられちゃいました(^_^;)

プロトコル仕様を見ると<loc>要素以外はOptionalみたいなので、lastmodを出力
しないようにするのが一番手っ取り早いかも。

一旦Sitemapを登録すると、1日に2度くらいGooglebotがsitemap.xmlを拾いに
来て、その後新着URL等をざーっとクロールしてくれてます。

登録前に比べてGooglebotの来る頻度もあがりましたし、新着商品を優先的にク
ロールしてくれるっぽいのはちょっと嬉しい(^_^)

まぁクロールしてもらえてもそれがインデックスされるかどうかはまた全然別の
問題ですが、往時の

「次のdeepbotクロールまでに何商品登録しよう!」

みたく“クローラーの都合にこちらが合わせる”よりは、“毎日更新が無いか覗
いてくれる”ほうが有り難い印象ではあります。

はまだ






Tep-j-general メーリングリストの案内
Back to archive index