【爬虫入门】【正则表达式】抓取糗事百科的段子3.0

F_aF_a

于 2019-01-08 11:47:23 发布

阅读量241

点赞数

CC 4.0 BY-SA版权

分类专栏： Python # 爬虫

本文链接：https://blog.youkuaiyun.com/qq_37252519/article/details/86065358

Python 同时被 2 个专栏收录

41 篇文章

订阅专栏

爬虫

14 篇文章

订阅专栏

本文介绍如何使用fake_useragent库来伪造浏览器的UserAgent，实现更稳定的网页爬取。通过安装并应用fake_useragent库，可以随机选择不同的浏览器标识，避免被目标网站识别为爬虫而封锁。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在原有基础上，增加写入伪造浏览器的UserAgent

fake_user_agent: pip install fake-useragent//这个第三方库，维护了各种主流浏览器的UA标识，并且会定时更新这个库，淘汰一些过期的UA。

首先，在pycharm中安装fake_useragent

在这里插入图片描述

然后修改爬虫类的代码

from fake_useragent import UserAgent

class QSBKSpider(object):
    """
    爬虫类
    """

    def __init__(self):
    	#前面省略
        # 实例化工具类DataTool的对象
        self.tool = DataTool()
        ####这里添加
        # 实例化Ua对象
        self.ua = UserAgent()

    def get_list_html(self, page_num):
       ####这里修改为
        headers={
            #random属性：从ie、firefox、chrome等浏览器的ua中，随机获取一个ua。
            'User-Agent':self.ua.data_random
        }
        request = Request(page_url, headers=headers)