反爬虫业务安全概览
Jack Chen
起源
爬虫在这个大数据时代已经不是什么新鲜事了,早前我们说的爬虫可能单指网页的爬虫,用来建立网页索引。在数据分析和机器学习火热的当下,互联网上的爬虫更加普遍,这些爬虫日夜不停的爬取数据导致以下这些行业更是爬虫的重灾区:
- 火车飞机票务
- 金融行情数据
- 区块链要闻
- 简历个人信息
- 房屋商品价格
- …
据统计互联网上约有 51% 左右的流浪是机器流量,这些流量是失控的、野蛮的。
蚂蚁吃大象
2019 年 4 月中旬,本人进入了一个数据旷工群组,群中近千号人都在热聊一件事情。都在讨论「关于如何绕过 XX 公司的爬虫防护策略」的开源工具。他们利用这个工具爬取了文书网,在此之前我对文书网的站点不是很了解,进群后才知道这是一个政府开放的个人传票信息查询网站。 后来文书网在 4 月发布了停机升级公告,已经被爬虫爬的无法正常对外服务了。再后来他们更换了反爬虫供应商。。。
残酷的竞争
互联网上广告和游戏也是是一个重要的赢利点,但是前提是要拥有众多的用户群体你才能参与进这样的揽金行业。马蜂窝和携程都拥有旅游信息业务板块,他们之间也出现了「携程起诉马蜂窝爬虫其游记和旅游评论信息」这样的微博热文。这样的商业竞争行为在互联网上还有很多,大家都是为了“争”业务、“抢”用户。
恶意报复
携程算是反爬虫领域做得比较早的一家企业,发布的关于反爬虫方面的材料也非常的有深度和见解。 但是最早也是因为被爬挂了,才有的反爬虫的诉求。
反爬虫我们要防御什么
反爬虫业务面对的三大场景分别是刷量、占用资源、信息资产盗取;
刷量
在广告、娱乐行业按量付费是很典型的场景。 按量结算量越高自