Shinsuke Sugaya
shins****@yahoo*****
2010年 1月 13日 (水) 23:50:03 JST
菅谷です。 > 「URL」ですね? はい。 通常の起点となる URL と同様にサイトマップの URL を指定します。 > そこに指定する URL ですが、サイトマップファイル名までは含めない > のですか? ファイル名まで含める必要があります。 >ファイル名パターンで自動的にヒットするのですか? いいえ、パターンで自動にヒットしません。 サイトマップは普通の XML ファイルなどなので クロール時にその URL が普通の XML ファイルなのか サイトマップなのかが区別できません。ですので、 >>sitemap.*.xml、sitemap.*.gz、sitemap.*txt である であればその URL から取得したものをサイトマップとして 処理します。 > サイトマップファイルには、サイトマップの URL の下ではない別のと > ころの URL が書いてある理屈ですが、 サイトマップはサイトマップファイルが置いてある URL 以下の 場所しか指定できませんが、今のところ、Fess では特に制限せずに サイトマップファイルに記述してある URL を子リンクとして 次のクロール対象とします。 > 「クロール対象とするURL」に > はそちらの URL 正規表現を入れておくのでしょうか? サイトマップファイルに書いてある URL は、通常の HTML 内に 書いてあるリンクと同じ扱いになります。ですので、サイトマップの URL をクロールしたい場合はクロール対象 URL などで制御できます。 HTML ファイルをクロールするとリンクが次のクロール対象に なりますが、サイトマップファイルをクロールするとその中の URLが次のクロール対象になる感じです。 現在、いろいろとドキュメント整備を進めていますが、 不明な点がありましたら、お知らせください。 (いろいろとご指摘いただき助かっています) shinsuke 2010年1月13日18:44 Masayuki Shibata <mshib****@shima*****>: > 柴田@亀岡市です。 > > イマイチ、設定がピンと来ないので教えてください。 > >>URL にサイトマップを指定すると、そこからクロール先の >>リンクを利用します。サイトマップのファイル名は >>sitemap.*.xml、sitemap.*.gz、sitemap.*txt である >>必要があります(webapps/fess/WEB-INF/classes/ >>s2robot_rule.dicon でカスタマイズは可能です)。 > > 「URL」ですね? > 「クロール対象とするURL」ではなくって... > > そこに指定する URL ですが、サイトマップファイル名までは含めない > のですか?ファイル名パターンで自動的にヒットするのですか? > > サイトマップファイルには、サイトマップの URL の下ではない別のと > ころの URL が書いてある理屈ですが、「クロール対象とするURL」に > はそちらの URL 正規表現を入れておくのでしょうか? > > クロール対象とするURL にはサイトマップファイル内にないものも配 > 下にあるのですが、それもどうもヒットしてきているみたいで、上記 > 想定は少し外れているみたいで、ちょっとわからなくなってます。 > > 試行錯誤して見つける努力はしますが、もしよろしければご教示いた > だけると助かります。 > > _______________________________________________ > Fess-user mailing list > Fess-****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/fess-user >