为什么要使用多个user-Agent?
因为我们的爬虫到时候是一直循环的,每次爬取的时间间隔较短,目标网页容易发现同一个浏览器浏览太快这个漏洞,导致爬取不顺利,所以使用多个user-Agent来进行爬取访问,是一个随机的过程
怎么样使用?
以一个简单的爬取百度标题为例
import random
from urllib import request
import re
url = 'http://www.baidu.com'
userAgent = ['Mozilla/5.0 (Linux; U; Android 8.1.0; zh-cn; BLA-AL00 Build/HUAWEIBLA-AL00) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132 MQQBrowser/8.9 Mobile Safari/537.36',