事情经过
昨日,一个自称是某网站站长的人联系上了我,说,“最近,我的网站收到了非常多的爬虫请求,已经严重影响到了我网站的正常业务,后来经查是你的文章公布出的爬虫程序,你已经违法了,请立刻删除你的文章,谢谢!“
我感到了非常不理解,“这和我没关系啊,虽然程序是我做的,但是我的程序只爬取了公开的数据,是合法的啊。有人拿我的程序去运行,可是那不是我运行的啊,这和我没关系啊!”
他说,“我的网站上有明显的反爬措施,可是你的程序绕过了这种反爬措施,就这一点,你就已经违法了!”
我更不明白了,“你的反爬措施都是放在前端上的啊,前端上的内容又不涉及到网站的服务器,绕过前端的措施怎么能算违法呢?那通过浏览器访问,不是也要执行这些前端的内容吗,这也算违法吗?”
他说,“现在已经是2022年了,不是以前了,看看新的法律法规吧!不要老是抱着前些年你学习时候的那一套东西不放了。总之,我已经警告过你了,你好自为之。”
最近两年,我经常听人说,“爬虫学的好,牢饭吃到饱。”,但是作为一个专业的爬虫人士,我从来没把这个话当真,一直认为是他们只是在玩梗。在我的印象里,除了爬取个人信息,哪有违法被抓的啊!
但是听了这位站长的这番话,我也是重视了起来,立刻去搜索了相关的知识,还真的有了不少新发现,原来现在真的和以前不一样了
新的发现
首先,我发现了某个知名爬虫博主的文章,上边写的出于安全考虑,他不会再给提供验证码的破解方法。我感觉到了非常的震惊,因为我清楚的记得,该博主几年前的书里还完整的给出了验证码的绕过方法,现在居然已经不提供了吗?真的有这么严重了吗?
然后,我就搜索了验证码违法的相关内容,结果还真的有了发现
当然,因为绕过验证码被抓的,还有很多,比如说