爬虫使用多个user-Agent

bin~ibn

于 2020-04-25 08:59:58 发布

阅读量1k

点赞数

分类专栏：爬虫 python user-Agent 文章标签： python 爬虫经验分享

本文链接：https://blog.youkuaiyun.com/qq_42764997/article/details/105744439

版权

为什么要使用多个user-Agent？

因为我们的爬虫到时候是一直循环的，每次爬取的时间间隔较短，目标网页容易发现同一个浏览器浏览太快这个漏洞，导致爬取不顺利，所以使用多个user-Agent来进行爬取访问，是一个随机的过程

怎么样使用？

以一个简单的爬取百度标题为例

import random
from urllib import request
import re

url = 'http://www.baidu.com'

userAgent = ['Mozilla/5.0 (Linux; U; Android 8.1.0; zh-cn; BLA-AL00 Build/HUAWEIBLA-AL00) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132 MQQBrowser/8.9 Mobile Safari/537.36',