最近朋友公司在做线下商户相关的业务,需要获取大量商户的信息,想让我帮他从点评采集,心想这不是小菜一碟,老代码改改不就ok了,于是欣然答应,并大言不惭的说过两天就交货......
于是乎当晚就翻出7年前的老代码,信心满满的撸起来,一番折腾后发现页面上显示中文的地方实际都是html的标签,例如<b class=”xxxxx“>之类的,这种情况在店铺列表页不多,但是在店铺详情和更多评论的页面都是,因此要获取店铺信息和评论数据必须得过这关,接下来各种找资料,网上相关文章也不少,但都有些出入,因为点评得反爬策略也在不断更新,经过几个晚上奋战,终于交货了!实现的过程和思路大致如下,截至文章发布前本人亲测有效,希望对你有帮助!
第一步:确定一个比较容易获取的数据来源
点评有移动端/h5/pc
1、大众点评APP:移动端数据获取相对比较麻烦
2、北京美食,北京餐厅餐饮,北京团购,北京生活,优惠券-大众点评网 h5端只会显示部分评价,全部评价必须要下载app才能查看
3、https://www.dianping.com/ pc端门店页数虽有50页限制,但是可以通过增加筛选条件规避,查看评价没有限制
因此综合考虑选择pc端
第二步:cookie的获取
注
本文介绍了如何爬取大众点评的数据,包括选择PC端作为数据来源,获取cookie,规避反爬策略,解析HTML获取门店列表,破解CSS反爬,以及获取店铺经纬度的详细步骤。核心在于解析CSS和SVG反爬策略,适合有一定编程基础的读者。
订阅专栏 解锁全文
3777





