常见的网站反爬手段

常见的网站反爬手段

1.请求头加token

像移动,猎云网这类网站,就是用的这种反爬手段。
他们会在你打开首页时,在返回的response中藏一个token,
在你访问下一页时会使用这个token来作为请求头的内容,如果没有则请求失败
如猎云网的token藏在head中
token

ajIudUF2V0gsfGIvJg4PCyhCGBsRLhA7LQtqPAwGMjlYWXs5DR49Hw==
就是我这次请求的token

在这里插入图片描述
在我点击下一页时,这个token会被带入header中

2.页面跳转

比如百度资讯,我从列表页面获取到的详情页url是https开头的,
但是点开页面他会自动跳转到http开头,后面不变的页面,但是在使用代码请求时,是不会自动跳转的
,所以我们需要在获取详情页之前手动将https替换为http再请求
在这里插入图片描述

3.动态function

比如36kr,他在每次获取下一页时都需要一个call——back——page参数,这个参数每一页都不一样,所以每次获取下一页时,都需要从本业找到这个参数,我猜测他是把页数给加密了,变成一个密码串。

4.令人哭笑不得的html标签

最近爬取政府新闻,发现有个标签死活拿不到,我回想起来以前有个网站的html标签只有开始标签没有结束标签会导致这样,结果一阵检查之后发现并不是,在浏览器上他显示的标签属性是这样的
在这里插入图片描述
很自然地,我用class获取他的一系列标签,结果就是拿不到,一气之下我下载了他的网页代码,结果
在这里插入图片描述
class后面藏了一个空格,厉害厉害,这个空格在加载的时候被浏览器自动删除了,这个反爬手段属实厉害

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值