2021-08-31-CR-007 Python 爬虫,动态变更浏览器用户代理,给与随机的访问延迟,每天一个爬虫小技巧

本文介绍了如何在Python爬虫中模拟浏览器User-Agent和访问延迟,以防止被目标服务器识别为批量操作。通过随机生成Chrome浏览器的版本号和操作系统类型,结合random库实现随机延迟,增加了爬虫的隐蔽性。了解这些技巧有助于提升爬虫的匿名性和成功率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬虫中浏览器UA与访问随机延迟的模拟

前面在requests库的使用中,模拟了headers
其中有一项是user-agent

headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}

在这里插入图片描述
Google浏览器显示的就这么多,火狐还能更多点
其中Windows NT 是指的用户操作系统

Chrome/后面的就是版本号
改变的就是这两个地方

import random


class MyUA:
    first_num = random.randint(55, 62)
    third_num = random.randint(0, 3200)
    fourth_num = random.randint(0, 140)
    os_type = [
    '(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', '(X11;Linux x86_64)','(Macintosh; Intel Mac OS X 10_12_6)'
    ]
    chrome_version = 'Chrome/{}.0.{}.{}'.format(first_num, third_num,
    fourth_num)
    @classmethod
    def get_ua(cls):
        return ' '.join(['Mozilla/5.0', random.choice(cls.os_type),
        'AppleWebKit/537.36','(KHTML, like Gecko)', cls.chrome_version,
        'Safari/537.36'])
print(MyUA.get_ua())

每次调用类方法出来的是随机的用户代理。
这样对方服务器收到的是随机的版本和系统类型,以掩饰自己的批量操作。

而随机的延迟只是 简单的加一个random里面的数值,然后time.sleep()就可以了,并不需要多少东西,找自己喜欢的时间长度。

结合前面那篇,已经掌握了随机的代理,随机的浏览器代理和随机的访问频率。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Amoor123

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值