【爬虫入门】【正则表达式】抓取糗事百科的段子3.0

本文介绍如何使用fake_useragent库来伪造浏览器的UserAgent,实现更稳定的网页爬取。通过安装并应用fake_useragent库,可以随机选择不同的浏览器标识,避免被目标网站识别为爬虫而封锁。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在原有基础上,增加写入伪造浏览器的UserAgent

fake_user_agent: pip install fake-useragent//这个第三方库,维护了各种主流浏览器的UA标识,并且会定时更新这个库,淘汰一些过期的UA。

首先,在pycharm中安装fake_useragent

在这里插入图片描述

然后修改爬虫类的代码
from fake_useragent import UserAgent

class QSBKSpider(object):
    """
    爬虫类
    """

    def __init__(self):
    	#前面省略
        # 实例化工具类DataTool的对象
        self.tool = DataTool()
        ####这里添加
        # 实例化Ua对象
        self.ua = UserAgent()

    def get_list_html(self, page_num):
       ####这里修改为
        headers={
            #random属性:从ie、firefox、chrome等浏览器的ua中,随机获取一个ua。
            'User-Agent':self.ua.data_random
        }
        request = Request(page_url, headers=headers)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值