网络爬虫,会自动完成批量网页信息查找的工具,工作原理可以简述为:
爬虫向预先估计有料的一堆网络进发,找到相关信息就背下来,放进大本营(控制中心)的仓库里,并分类放好;爬虫又在爬过的网页中发现其他有潜力的,未爬过的网页,把url传回大本营,由大本营进行筛选和优先级排序,确定爬虫们继续探宝的新网页群。

网络爬虫是自动完成批量网页信息查找的工具。其工作时先向预估有料的网络进发,找到信息存入控制中心仓库并分类;再从已爬网页发现新的未爬网页,将其url传回控制中心筛选排序,确定新的探宝网页群。
网络爬虫,会自动完成批量网页信息查找的工具,工作原理可以简述为:
爬虫向预先估计有料的一堆网络进发,找到相关信息就背下来,放进大本营(控制中心)的仓库里,并分类放好;爬虫又在爬过的网页中发现其他有潜力的,未爬过的网页,把url传回大本营,由大本营进行筛选和优先级排序,确定爬虫们继续探宝的新网页群。

9万+

被折叠的 条评论
为什么被折叠?