Shinsuke Sugaya
shins****@yahoo*****
2010年 1月 9日 (土) 21:49:32 JST
菅谷です。 対応してみました。 URL にサイトマップを指定すると、そこからクロール先の リンクを利用します。サイトマップのファイル名は sitemap.*.xml、sitemap.*.gz、sitemap.*txt である 必要があります(webapps/fess/WEB-INF/classes/ s2robot_rule.dicon でカスタマイズは可能です)。 対応するサイトマップのフォーマットは XML Sitemaps、 XML Sitemaps Index、テキストです(RSS もあるみたい ですが未対応)。 何かありましたらお知らせください # Fess のバージョンを 2.0.0 系に変更しました shinsuke 2010年1月8日8:43 Shinsuke Sugaya <shins****@yahoo*****>: > 菅谷です。 > > サイトマップについては Fess がクロールエンジンとして > 利用している S2Robot に以下のようなチケットを登録して > います。 > > https://www.seasar.org/issues/browse/ROBOT-5 > > これで対応しようと思っていたのですが、作業リソース不足や > 必須でもないなどにより、長い間放置してます(半年以上過ぎて > しまいました・・・)。 > > ここ1ヶ月くらい闘ってきた 100 万ドキュメント対応も > 一段落したので、そのようなケースもあるようであれば、 > 優先度を上げて処理したいと思います。ですので、 > 少々お待ちください(他に重い作業が入らなければ > 来週中には何とかしたいと思います)。 > > shinsuke > > > 2010年1月7日19:19 Masayuki Shibata <mshib****@shima*****>: >> 柴田@亀岡市です。 >> >> ある Web 型の文書管理サーバーソフトでの話です。 >> >> 文書ファイルへのリンクは、アイコンボタンの Action として記述されて >> おり、いわゆる href リンクではないため fess でクロールできていませ >> ん。 >> >> そこでそのサーバーソフトの開発元に何か手はないかとたずねたところ、 >> 「サイトマップ」に対応しているので、それで何とかならないかみたいな >> 回答がありました。 >> >> サイトマップとは... >> http://www.sitemaps.org/ja/index.php >> >> 実際その機能を動かしてみると、指定 URL に >> sitemapindex.xml と sitemap_0001.xml.gz >> というファイルが作られていて、前者には後者のポインタ (多分後者が複 >> 数作られるときにインデックス) を含んでおり、後者を展開して得られる >> XML には... >> >> <url> >> <loc>http://hostname/xxx/htdocs/...</loc> >> <lastmod>2009-04-23T18:33:01+09:00</lastmod> >> </url> >> >> ...のような文書ファイルへのリンクがズラっと並んで記述されています。 >> >> 話のやりとりからある種の規格のようなものだと推測されますが、これに >> 対応できていれば確かにクロールするのに一発で済みそうです。 >> >> これについて何かご予定はお持ちでしょうか? >> >> ---------- >> Shibata, Masayuki >> Manager, Software Development >> Shimadzu Corporation >> Analytical Measuring Instruments Division >> Research & Development Department >> Telephone: 075-823-1441 Japan >> Facsimile: 075-823-1365 Japan >> E-mail: mshib****@shima***** >> >> _______________________________________________ >> Fess-user mailing list >> Fess-****@lists***** >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >