可以使用请求头(headers)来掩饰自己,其中最常用的就是User Agent(中文名为用户代理),是Http协议中的一部分,属于头域的组成部分,User Agent也简称 UA 。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识;表示当前访问服务器的身份信息,如果同一个身份过于频繁的访问服务器会被识别为机器身份,遭到反爬的打击,所以需要频繁的更改User-Agent信息;一般User-Agent字段包括以下几个信息:浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息;
比如:
Accept:客户端支持的数据类型,用逗号隔开,是有顺序的,分号前面是主类型,分号后是子类型;
Accept-Encoding:指定浏览器可以支持的web服务器返回内容压缩编码类型;
Accept-Language:浏览器可接受的自然语言的类型;
Connection:设置HTTP连接的持久化,通常都是Keep-Alive;
Host:服务器的域名或IP地址,如果不是通用端口,还包含该端口号;
Referer:指当前请求的URL是在什么地址引用的;
user_agent_list = [
"Opera/9.80 (X11; Linux i686; U; hu) Presto/2.9.168 Version/11.50",
"Opera/9.80 (X11; Linux i686; U; ru) Presto/2.8.131 Version/11.11",
"Opera/9.80 (X11; Linux i686; U; es-ES) Presto/2.8.131 Version/11.11",
"Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/5.0 Opera 11.11",
"Opera/9.80 (X11; Linux x86_64; U; bg) Pres

本文介绍了在使用Python爬虫抓取抖音数据时,如何通过设置User Agent、Accept等请求头,以及使用代理IP来规避反爬策略。强调了频繁更换User-Agent和使用高匿代理的重要性,同时建议在采集过程中适当休息以减轻服务器压力。
最低0.47元/天 解锁文章
2675

被折叠的 条评论
为什么被折叠?



