在Scrapy框架内实现随机更换UA（用户代理）功能

最新推荐文章于 2024-06-23 10:28:56 发布

原创最新推荐文章于 2024-06-23 10:28:56 发布 · 516 阅读

0 ·

CC 4.0 BY-SA版权

本文详细介绍如何使用fake-useragent模块在Python爬虫项目中实现随机更换User-Agent，包括安装模块、修改middlewares.py和settings.py文件的具体步骤。

准备工作

在终端中输入pip install fake-useragent来安装fake-useragent模块
待安装完成后进行下一步

启用随机更换UA功能

先打开middlewares.py文件，在其最后导入fake-useragent模块

from fake_useragent import UserAgent

class RandomUserAgentMidddlware(object):
    def __init__(self, crawler):
        super(RandomUserAgentMidddlware, self).__init__()
        self.ua = UserAgent()
        self.ua_type = crawler.settings.get('RANDOM_UA_TYPE', 'random')

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    def process_request(self, request, spider):
        def get_ua():
            return getattr(self.ua, self.ua_type)

        request.headers.setdefault('User-Agent', get_ua())

然后打开settings.py文件，启用下载中间件并输入以下代码（xxx自己的项目名称）

DOWNLOADER_MIDDLEWARES = {
   'xxx.middlewares.RandomUserAgentMidddlware': 543,
    'xxx.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}

RANDOM_UA_TYPE = "random"

保存后即开启随机更换UA功能。