[fess-user 570] Re: 単一ページのクローリング

Back to archive index

Norihito Yamakawa nyama****@gmail*****
2012年 5月 18日 (金) 13:59:51 JST


菅谷様

ご返答ありがとうございます。
山川です。

> 更新するものを Fess に通知するような形にすると
> 更新を監視するものや通知するものを用意する
> 必要がある気がしています。ですので、現状の
> 差分クロールの機能で良いかと考えているので、
> 今のところ、そこに対して何かする予定はありません。

ありがとうございます。
たしかに既存の差分クロールでもほとんどの場合大丈夫そうです。
それで少々利用してみます。


> 更新されているものだけクロールするのであれば
> 更新監視するものとかが、更新されたものだけの
> リンク集を HTML として書きだして、クロール設定で
> それを指定して、ID 指定でクロールなどがあるかも
> しれません。

なるほどなるほど。
こちらもためしてみます。(GoogleのサイトマップXMLみたいなかんじですね)

ご助言ありがとうございました!

> よろしくお願いいたします。
>
> shinsuke
>
>
> 2012年5月16日 10:44 Norihito Yamakawa <nyama****@gmail*****>:
>> こんにちは、山川と申します。
>>
>> 最近Fessを利用し始めさせて頂いていて、
>> 便利に使っています。ありがとうございます。
>> Office文書やPDFも検索できるのは凄いです!
>> lucene-gosen利用設定の方が利用者には評判良いみたいなので、それで利用しています。
>>
>> 本題なのですが、
>> Fessを利用する場合に、Webなりファイルなりのクローリング設定をした後、
>> クローリング対象のファイルのどれかが更新された!
>> でもファイルが一個しか更新されていないのに全体クローリングをもう一回やるのはコスト的に微妙!
>> というときに、更新された分だけの検索インデクスを更新するのに、何か良い方法はないでしょうか?
>>
>> FessのSolrスキーマだけ使って Solrj なりのSolrのAPIで直接登録するような形で
>> 登録部分を別に作ってしまった方が良いのでしょうか?
>> (でも、FessXpathTransformerはデータ整形の統一のため共用したいです。。)
>>
>> いまのところ、クロウラのコマンドラインインターフェースのほうで
>> ID指定でクロウラ設定毎にクローリングができるみたいなので、
>> それを利用させて頂くかな、、というのも考えておりますが、
>> 何か良い方法があればご助言頂けると幸いです。
>>
>> (あとnamazuを機械的に置き換えてFessにJSONでやりとりするためだけの検索CGIインターフェースを
>>  作ったんですが、そういうのって需要ありますでしょうか。。)
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-****@lists*****
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user




Fess-user メーリングリストの案内
Back to archive index