一,URL管理器
1,功能:管理待抓取URL集合和已抓取URL集合
--防止重复抓取,防止循环抓取(如果两个URL互相指向,将造成死循环)
2,实现方式
注:大型公司用的都是缓存数据库(高性能)
MySQL中的is_crawled是判断是否为待爬取的URL
小型的用Python内存即可
二,网页下载器
1,功能:将互联网上URL对应的网页下载到本地的工具
2, Python的网页下载器
一,URL管理器
1,功能:管理待抓取URL集合和已抓取URL集合
--防止重复抓取,防止循环抓取(如果两个URL互相指向,将造成死循环)
2,实现方式
注:大型公司用的都是缓存数据库(高性能)
MySQL中的is_crawled是判断是否为待爬取的URL
小型的用Python内存即可
二,网页下载器
1,功能:将互联网上URL对应的网页下载到本地的工具
2, Python的网页下载器