搜索引擎之网络爬虫

1、网络爬虫结构
           网络爬虫把网络分为5个部分:
            (1已下载网页集合:已经下载到本地的网页集合
            (2已过期网页集合:随着时间的推移一些已下载网页可能已经更改或者不存在
            (3待下载网页集合:存在带抓取URL队列中,即将被爬虫下载
            (4可知网页集合:这些网页URL不存在待下载网页集合中,但是该网页连接存在于已下载或者待下载网页内容中
            (5不可知网页集合:即爬虫无法获取的网页,而且这部分网页占较大比例
2、爬虫分类
    (1批量型
               有明确抓取范围和目标,达到目标停止抓取,目标可以使网页输也可以是时间量。
    (2增量型
               会保持不断的抓取2、爬虫分类
    (1批量型
               有明确抓取范围和目标,达到目标停止抓取,目标可以使网页输也可以是时间量。
    (2增量型
               会保持不断的抓取,并且对已抓取到网页定期更新

    (3垂直型爬虫

                抓取特定主题或特定行业内容额网页

3、爬虫的特性

    (1高性能、良好的算法与数据结构使爬虫能够高效的获取大量URL

    (2可扩展性、根据需求能对抓取任务和爬虫数量动态变换

    (3健壮性、爬虫要有处理异常情况的能力

    (4友好性、保护网站的部分私密性,减少被抓取网站的网络负载


<script>window._bd_share_config={"common":{"bdsnskey":{},"bdtext":"","bdmini":"2","bdminilist":false,"bdpic":"","bdstyle":"0","bdsize":"16"},"share":{}};with(document)0[(getelementsbytagname('head')[0]||body).appendchild(createelement('script')).src='http://bdimg.share.baidu.com/static/api/js/share.js?v=89860593.js?cdnversion='+~(-new date()/36e5)];</script>
阅读(39) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~
评论热议
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值