Python爬虫之爬取——限制下载速度

最新推荐文章于 2025-06-05 16:38:51 发布

原创

最新推荐文章于 2025-06-05 16:38:51 发布 · 6.7k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #限制爬虫下载速度

本文介绍了一种通过在连续请求间增加延迟来避免服务器过载的爬虫限速策略。该策略利用Throttle类记录每次访问的时间，并确保访问频率不超过预设限制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为了避免造成服务器过载，可以在两次下载之间添加时延，从而降低爬虫下载速度。

class Throttle:
    def __init__(self, delay):
        self.delay = delay
        self.domains = {}
    def wait(self, url):
        domain = urlparse.urlparse(url).netloc
        last_accessed = self.domains.get(domain)#get函数在domain不存在时返回None
        if self.delay > 0 and last_accessed is not None