给定种子URL,将种子URL放入待抓取的URL队列中,爬虫从待抓取URL队列中依次读取,并将URL通过DNS解析,获得对应网站服务器的ip地址,然后下载网页,然后存储在下载网页库,和已抓取URL队列中,然后抽取出没有抓取的URL,加入到待抓取URL队列的队尾。
2,爬虫类型
(1)批量式爬虫(Batch crawler):有比较明确的抓取范围和目标,当爬虫达到设定的目标时,即停止抓取。
(2)增量式爬虫(Incremental crawler):保持不断抓取网页,对于抓到的网页,定期更新,通用的商业搜索引擎爬虫属于此类。
(3)垂直式爬虫(Focused crawler):关注特定的主题内容或特定行业的网页,特点和难点:如何确定一个网页是否属于特定行业或者主题。
3,优秀爬虫的特性
(1)高性能:爬虫下载网页的速度,常用评价标准:每一秒能够下载网页的数目。
(2)可扩展性:
(3)健壮性:爬虫对于处理各种异常情况的能力,比如网页HTML编程不规范,被抓取服务器突然死机,爬虫陷阱等
(4)友好性:保护网站部分私密部分,减少被抓取网站的网络负载。
4,抓取策略
(1)宽度优先遍历策略
将新下载的网页包含的链接直接添加到待抓取的URL队列末尾。
(2)非完全PageRank策略
PageRank的思想是对URL进行排序,对已经下载的URL,和待抓取的URL看成一个集合,在这个集合内进行pagerank计算,计算完成,将待抓取的URL按照得分高低进行排序。
(3)OCIP策略
(4)大网站优先策略