暑假实习的时候,老板让收集北上广深公司的联系方式,最好是email或者手机。鉴于老板不想花钱,就拜托本菜鸟写爬虫,去爬取各色B2B网站企业信息。
现在的时代,数据就是金钱,各大网站是不可能让你轻而易举爬走数据滴,即使这些数据都是开源的。常见的反爬手段包括禁止频繁访问,将手机号码转换成图片显示。有些丧心病狂的网站,反爬工程师每月拿2万大洋,让萌新瑟瑟发抖。
顺企网是个比较有意思的网站(截图如下)(从爬虫角度来说),且听我细细道来。
1) 解决频繁访问
博主尝试过每发送一次请求,休息2秒,然而在300-400个请求后被拒绝,爬虫光荣阵亡。出离愤怒的博主,将出错的url通过浏览器访问,返回以下界面。
手动点击“点击继续”这个超链接后,即可跳转到需要的公司信息界面,正常访问(发送请求)。
由于要获取的企业数量在万级,必须要解决这个因频繁访问被验证非机器人的问题。
最直接的思路