搜索引擎对库中网页的维护策略

本文探讨了搜索引擎更新网页内容的两种主要方式:批量搜集和增量搜集。批量搜集涉及定期完全替换现有内容,而增量搜集则专注于更新新增、修改或已删除的网页。
1、定期搜集,每次搜集替换上一次的内容,称之为“批量搜集”。由于每次都是重新来一次,对于大规模搜索引擎来说,每次搜集的时间通常会花几周。而由于这样做开销较大,通常两次搜集的间隔时间也不会很短。这样做的好处是系统实现比较简单,主要缺点是“时新性”(freshness)不高,还有重复搜集所带来的额外带宽的消耗。
2、增量搜集,开始时搜集一批,往后只是
(1)搜集新出现的网页,
(2)搜集那些在上次搜集后有过改变的网页,
(3)发现自从上次搜集后已经不再存在了的网页,并从库中删除
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值