最近在使用爬虫爬取数据的时候,发现很多网站为了保护版权都加入了防盗链。具体表现为:在本地访问图片正常,url访问也可以,但是img的src访出现403。在网上查阅了一些资料后发现了解决问题的办法。可以在img标签中加上
referrer="no-referrer"
也可以在html的header头部加入
<meta name="referrer" content="no-referrer" />
出现403的状态其实是因为http请求的header中有一个referrer用来标识当前请求来自那个网站,这个值是可以省略但是不能修改的。这样服务器可以通过这个值判断是不是本站访问,如果不是就做相应处理。
这里有一篇关于referrer的文章。有些东西我们只用知道错误的原因,然后找到对应的解决办法即可,技术这个东西想面面俱到很难。
PS:爬取第三方网站的资源,一定要标识转载来源。
————————————————
版权声明:本文为优快云博主「san生石」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.youkuaiyun.com/nookl/article/details/94217402