如何让Python爬虫一天抓取100万张网页，2024年Python阿里&腾讯&百度&字节校招面试汇总

本文介绍了如何通过优化URL存储、使用BloomFilter算法和ADSL拨号来提高Python爬虫的效率，以应对大规模网页抓取的挑战。通过截断URL、BloomFilter节省内存以及ADSL拨号切换IP，实现高效抓取，同时讨论了网络性能和抓取技术细节的调优。

这个完整URL有44个字节，一亿个URL就是4G，一亿个URL就要占用4G内存，这还没有算存这一亿个URL需要的数据结构内存，还有待抓取URL，已抓取URL还保存在内存中的html等等消耗的内存。

所以这样直接用set()保存URL是不建议的，除非你的内存有十几个G。

一个取巧的办法是截断URL。只把URL：

https://www.tianyancha.com/company/23402373

的后缀:23402373放进set()里，23402373只占8个字节，一亿个URL占700多M内存。

但是如果你是用的野云主机，用来不断拨号用的非正规云主机，这700多M内存也是吃不消的，机器会非常卡。

就还需要想办法压缩URL的内存占用，可以使用BloomFilter算法，是一个很经典的算法，非常适用海量数据的排重过滤，占用极少的内存，查询效率也非常的高。它的原理是把一个字符串映射到一个bit上，刚才23402373占8个字节，现在只占用1个bit（1字节=8bit），内存节省了近64倍，以前700M内存，现在只需要10多M了。

BloomFilter调用也非常简单，当然需要先install 安装bloom_filter：

from bloom_filter import BloomFilter # 生成一个装1亿大小的

bloombloom = BloomFilter(max_elements=100000000, error_rate=0.1)

向bloom添加URL bloom.add(‘https://www.tianyancha.com/company/23402373’) #判断URL是否在bloombloom.contains(‘https://www.tianyancha.com/company/23402373’)

不过奇怪，bloom里没有公有方法来判断URL是否重复，我用的__contains__()方法，也可能是我没用对，不过判重效果是一样的。

三、反抓取访问频率限制

单台机器，单个IP大家都明白，短时间内访问一个网站几十次后肯定会被屏蔽的。每个网站对IP的解封策略也不一样，有的1小时候后又能重新访问，有的要一天，有的要几个月去了。突破抓取频率限制有两种方式，一种是研究网站的反爬策略。有的网站不对列表页做频率控制，只对详情页控制。有的针对特定UA，referer，或者微信的H5页面的频率控制要弱很多。

另一种方式就是多IP抓取，多IP抓取又分IP代理池和adsl拨号两种，我这里说adsl拨号的方式，IP代理池相对于adsl来说，我觉得收费太贵了。要稳定大规模抓取肯定是要用付费的，一个月也就100多块钱。

adsl的特点是可以短时间内重新拨号切换IP，IP被禁止了重新拨号一下就可以了。这样你就可以开足马力疯狂抓取了，但是一天只有24小时合86400秒，要如何一天抓过百万网页，让网络性能最大化也是需要下一些功夫的，后面我再详说。

至于有哪些可以adsl拨号的野云主机，你在百度搜”vps adsl”，能选择的厂商很多的。大多宣称有百万级IP资源可拨号，我曾测试过一段时间，把每次拨号的IP记录下来，有真实二三十万IP的就算不错了。

选adsl的一个注意事项是，有的厂商拨号IP只能播出C段和D段IP，110(A段).132(B段).3(C段).2(D段)，A和B段都不会变，靠C，D段IP高频次抓取对方网站，有可能对方网站把整个C/D段IP都封掉。

C/D段加一起255X255就是6万多个IP全都报废，所以要选拨号IP范围较宽的厂商。你要问我哪家好，我也不知道，这些都是野云主机，质量和稳定性本就没那么好。只有多试一试，试的成本也不大，买一台玩玩一个月也就一百多元，还可以按天买。

上面我为什么说不用付费的IP代理池？

因为比adsl拨号贵很多，因为全速抓取时，一个反爬做得可以的网站10秒内就会封掉这个IP，所以10秒就要换一个IP，理想状况下一天86400秒，要换8640个IP。

如果用付费IP代理池的话，一个代理IP收费4分钱，8640个IP一天就要345元。 adsl拨号的主机一个月才100多元。

adsl拨号Python代码

怎么拨号厂商都会提供的，建议是用厂商提供的方式，这里只是示例：

windows下用os调用rasdial拨号：

import os # 拨号断开

os.popen(‘rasdial 网络链接名称 /disconnect’) # 拨号

os.popen(‘rasdial 网络链接名称 adsl账号 adsl密码’)

linux下拨号：

import os # 拨号断开

code = os.system(‘ifdown 网络链接名称’)# 拨号

code = os.system(‘ifup 网络链接名称’)

四、网络性能，抓取技术细节调优

上面步骤做完了，每天能达到抓取五万网页的样子，要达到百万级规模，还需把网络性能和抓取技术细节调优。

1.调试开多少个线程，多长时间拨号切换IP一次最优。

每个网站对短时间内访问次数的屏蔽策略不一样，这需要实际测试，找出抓取效率最大化的时间点。先开一个线程，一直抓取到IP被屏蔽，记录下抓取耗时，总抓取次数，和成功抓取次数。再开2个线程，重复上面步骤，记录抓取耗时，总的和成功的抓取次数。再开4个线程，重复上面步骤。整理成一个表格如下，下图是我抓天眼查时，统计抓取极限和细节调优的表格：

在这里插入图片描述