关于使用selenium+lightbody bmp+HttpClient 抓取企查查编程分享-前言

博主分享了使用selenium+lightbody BMP+HttpClient 抓取企查查数据的经验,遇到的挑战包括防止重复数据存储、验证码拦截等问题。在尝试了不同策略如更换查询间隔、切换到天眼查后,发现依然受到严格限制,最终决定回到企查查继续抓取工作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

-首先打个标记等我把要抓的数据抓完之后再一 一 分享,先上几个截图。

1.已抓取到按条件的数据。这是躺过一周的坑,得到的结果


2.根据某些条件可能会得到重复的数据,例如:销售关键字与贸易关键字可能会得到一些重复的数据,则不存数据库。


=========== 等老弟我把数据爬完就跟大家一一分享代码,以及我爬数据时候遇到的关键坑。

现在分享主要怕查查大哥发现,把这种途径封掉,就麻烦了!

-------------------- 2018-03-30 日志 --------------------

/**
* 数据清理by 企业 name
* 梳理:
* 已开始用url+id作为详细信息查询,发现没过不了20条就要输入验证码,说明这一块控制的比较严格
* 然后过了一天之后发现直接使用名字查询即使是时间很短0.8-1 s 也没被拦截
* 半小时后发现使用名字查询也出现需要验证码的情况,立马改用天眼查进行查询,刚开始用名字查询也没有问题,以为这样就大功告成坐等收货了
* 过了一会发现出现了

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值