Scrapy进阶-防ban策略

最新推荐文章于 2024-04-09 09:54:25 发布

转载最新推荐文章于 2024-04-09 09:54:25 发布 · 274 阅读

python 同时被 2 个专栏收录

26 篇文章

订阅专栏

爬虫

13 篇文章

订阅专栏

本文分享了三种提升爬虫效率的方法：设置下载延迟避免服务器压力，禁用cookies减少被跟踪风险，以及通过变换useragent防止被服务器识别。这些技巧有助于更稳定高效地进行网页数据抓取。

1. download_delay

因为我们要大批量爬取网页，为了防止过分密集影响到别人的服务器，建议在setting.py中设置DOWNLOAD_DELAY=2，最好是在晚上睡觉的时候跑，这样虽然速度慢了一点，但是被dan的几率会降低很多哦。

2. 禁止cookies

cookies，是指某些网站为了辨别用户身份而储存在用户本地终端（Client Side）上的数据（通常经过加密），有的时候我们需要登录网站进行爬取数据，所以cookies很重要，但是当我们不需要让网站记住我们的是谁的时候，那么禁止cookies也就防止了可能使用cookies识别爬虫轨迹的网站得逞。
在settings.py中设置COOKIES_ENABLES=False。也就是不启用cookies middleware，不想web server发送cookies。

3. 变换user agent

user agent是指包含浏览器信息、操作系统信息等的一个字符串，也称之为一种特殊的网络协议。服务器通过它判断当前访问对象是浏览器、邮件客户端还是网络爬虫。之前爬取豆瓣的时候我们就把原来自表爬虫身份的user agent改了。

如果只用一个user agent 爬取太多次也会让服务器产生怀疑的，所以我们需要大量的user agent用来建立user agent pool。并通过DOWNLOADER_MIDDLEWARES切换agent。

建立一个middlewares.py，内容如下：

# -*- coding: utf-8 -*-
import random
from scrapy.conf import settings

class RandomUserAgent(object):
    """Randomly rotate user agents based on a list of predefined ones"""
    def __init__(self, agents):
        self.agents = agents

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler.settings.getlist('USER_AGENTS'))

    def process_request(self, request, spider):
        ua = random.choice(self.agents)
        request.headers.setdefault('User-Agent', ua)

转载
作者：hoptop
链接：https://www.jianshu.com/p/f9ea44cb7bfc
來源：简书