Requests库在发出请求时,会将自己的信息如实告诉给服务器,如果服务器设置了反爬虫,会导致Requests库返回错误,一般为400。我们通过伪装可绕过一般服务器的识别
通过设置header,将爬虫伪装成浏览器。
send_headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36",
"Connection": "keep-alive",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
"Accept-Language": "zh-CN,zh;q=0.8"}
在请求时,加上header参数
r=requests.get(url,headers=send_headers)
本文介绍了如何使用Requests库进行网络爬虫操作时避免被服务器识别的方法。通过设置请求头来伪装成浏览器,以绕过服务器的一般反爬虫设置。
1280

被折叠的 条评论
为什么被折叠?



