scarpy使用fake-useragent配置动态UA

最新推荐文章于 2025-05-04 09:15:00 发布

椒汁

最新推荐文章于 2025-05-04 09:15:00 发布

阅读量349

点赞数

CC 4.0 BY-SA版权

文章标签：爬虫 scrapy

本文链接：https://blog.youkuaiyun.com/apologize_i/article/details/101451682

本文详细介绍如何在Scrapy框架中使用动态User-Agent避免被目标网站封禁，包括安装fake_useragent库、定义随机UA中间件及在settings中激活。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

scarpy通过动态的user-agent可以避免被网站封禁，这篇文章主要讲解如何在scarpy中配置动态的UA

1.安装fake_useragent

直接进入cmd
pip install fake_useragent

在这里插入图片描述
我这里显示已经安装好了

2.在middleware中添加随机UA的中间件

首先导入我们需要的包

from fake_useragent import UserAgent

然后定义这个类我已经写好了直接上代码

#定义随机UA的类
class RandomUserAgentMiddleware(object):
 	
 	#这里我们需要采用继承的方式
    def __init__(self,crawler):
        super(RandomUserAgentMiddleware,self).__init__()
        #首先生成self.ua
        self.ua =  UserAgent()
        #由于ua有不同的类型,包括IE,chrome,firefox等等所以我们定义一下ua_type
        self.ua_type = crawler.settings.get("RANDOM_UA_TYPE","random")
		#这里之所以我们可以在settings中设置RANDOM_UA_TYPE = XXX ,XXX为我们需要的浏览器UA

    @classmethod
    def from_crawler(cls,crawler):
        return cls(crawler)

    def process_request(self,request,spider):
    	#这里我们应用了动态语言的比较好用的一点即方法里可以定义方法我们采用getattr的方法获取了ua.ua_type
        def get_ua():
            return getattr(self.ua,self.ua_type)
			
		#这里注释掉是方便调试用
        #random_agent = get_ua()
        #print(random_agent)

		#最后把headers全部设置为随机的就OK了
        request.headers.setdefault("User-Agent",get_ua())

3.在setting中激活中间件和ua_type

DOWNLOADER_MIDDLEWARES = {
	#这里是把我们的随机UA启用
   'igandan_crawl.middlewares.RandomUserAgentMiddleware': 543,
   
	#这里我们需要禁用掉默认的scarpy的UA,scrapy默认的UA就是'scrapy'容易被判断为爬虫并且被禁用所以需要设置为NONE即禁用
   'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None
}
RANDOM_UA_TYPE = 'Chrome' #这里可以随机设置 ie/firefox/chrome等等