05: 常用反扒机制 & 解决方法

反爬虫机制详解

最新推荐文章于 2023-12-02 19:00:00 发布

weixin_30677475

最新推荐文章于 2023-12-02 19:00:00 发布

阅读量564

点赞数

CC 4.0 BY-SA版权

文章标签： python

原文链接：http://www.cnblogs.com/xiaonq/p/11195177.html

本文介绍了几种常用的反爬虫机制，包括通过设置请求头中的token进行验证、利用Referer进行防盗链以及通过Host进行同源地址判断。这些方法有助于保护网站资源不被非法抓取。

1.1 常用反扒机制

　　 参考博客：https://blog.youkuaiyun.com/python36/article/details/90174300

　　1、header 浏览器的请求头

　　　　　　header中添加token等验证信息

　　2、Referer 防盗链

　　　　　　1. 访问的目标链接是从哪个链接跳转过来的（做防盗链的话，就可以从它入手）
　　　　　　2. HTTP来源地址（referer，或 HTTP referer）是HTTP表头的一个字段，用来表示从哪儿链接到目前的网页，采用的格式是URL。
　　　　　　3. 换句话说，借着HTTP来源地址，目前的网页可以检查访客从哪里而来，这也常被用来对付伪造的跨网站请求。

　　3、Host 同源地址判断，用它会很有用

11111111111111111111111111