大众点评数据爬虫思路[更新版]

本文介绍了如何爬取大众点评的数据,包括选择PC端作为数据来源,获取cookie,规避反爬策略,解析HTML获取门店列表,破解CSS反爬,以及获取店铺经纬度的详细步骤。核心在于解析CSS和SVG反爬策略,适合有一定编程基础的读者。

最近朋友公司在做线下商户相关的业务,需要获取大量商户的信息,想让我帮他从点评采集,心想这不是小菜一碟,老代码改改不就ok了,于是欣然答应,并大言不惭的说过两天就交货......

于是乎当晚就翻出7年前的老代码,信心满满的撸起来,一番折腾后发现页面上显示中文的地方实际都是html的标签,例如<b class=”xxxxx“>之类的,这种情况在店铺列表页不多,但是在店铺详情和更多评论的页面都是,因此要获取店铺信息和评论数据必须得过这关,接下来各种找资料,网上相关文章也不少,但都有些出入,因为点评得反爬策略也在不断更新,经过几个晚上奋战,终于交货了!实现的过程和思路大致如下,截至文章发布前本人亲测有效,希望对你有帮助!

第一步:确定一个比较容易获取的数据来源

点评有移动端/h5/pc

1、大众点评APP:移动端数据获取相对比较麻烦

2、北京美食,北京餐厅餐饮,北京团购,北京生活,优惠券-大众点评网 h5端只会显示部分评价,全部评价必须要下载app才能查看

3、https://www.dianping.com/ pc端门店页数虽有50页限制,但是可以通过增加筛选条件规避,查看评价没有限制

因此综合考虑选择pc端

第二步:cookie的获取

评论 17
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

压码路

如果帮到你,可以意思一下吗?

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值