常见的网站反爬手段

最新推荐文章于 2024-12-09 11:30:45 发布

迪亚大菠萝

最新推荐文章于 2024-12-09 11:30:45 发布

阅读量1.1k

点赞数 1

分类专栏： python 文章标签： python 常见的网站反爬手段

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_40498531/article/details/106793595

版权

python 专栏收录该内容

7 篇文章

订阅专栏

这里写自定义目录标题

常见的网站反爬手段

常见的网站反爬手段

1.请求头加token

像移动，猎云网这类网站，就是用的这种反爬手段。
他们会在你打开首页时，在返回的response中藏一个token，
在你访问下一页时会使用这个token来作为请求头的内容，如果没有则请求失败
如猎云网的token藏在head中
token

ajIudUF2V0gsfGIvJg4PCyhCGBsRLhA7LQtqPAwGMjlYWXs5DR49Hw==
就是我这次请求的token

在这里插入图片描述
在我点击下一页时，这个token会被带入header中

2.页面跳转

比如百度资讯，我从列表页面获取到的详情页url是https开头的，
但是点开页面他会自动跳转到http开头，后面不变的页面，但是在使用代码请求时，是不会自动跳转的
，所以我们需要在获取详情页之前手动将https替换为http再请求
在这里插入图片描述

3.动态function

比如36kr，他在每次获取下一页时都需要一个call——back——page参数，这个参数每一页都不一样，所以每次获取下一页时，都需要从本业找到这个参数，我猜测他是把页数给加密了，变成一个密码串。

4.令人哭笑不得的html标签

最近爬取政府新闻，发现有个标签死活拿不到，我回想起来以前有个网站的html标签只有开始标签没有结束标签会导致这样，结果一阵检查之后发现并不是，在浏览器上他显示的标签属性是这样的
在这里插入图片描述
很自然地，我用class获取他的一系列标签，结果就是拿不到，一气之下我下载了他的网页代码，结果

class后面藏了一个空格，厉害厉害，这个空格在加载的时候被浏览器自动删除了，这个反爬手段属实厉害

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。