获取评论信息的Json格式
引言
众所周知,某东的页面是懒加载的,不仅仅是图片,经过对某东页面的解析,发现,甚至他们的div等模块也是懒加载!
那么我们用爬虫只是单纯的对他们的整个页面解析,筛选出我们想要的数据这样的爬虫模式就不是很好用了。
此时我们应该使用更好的爬虫手法。我这里展示一下HttpClient的方法爬取某东评论数据。
一:正文
寻找url请求头
随便以一个商品为例:

右键-检查 打开控制台,找到network/网络:

点击商品评论,找到页面相应的清秀

找到这一行,查看他的请求url信息,并复制我们所需要的信息

打开搜索引擎,粘贴进去,我们会发现这个是一个json数据格式

url:https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100005324042&score=0&sortType=5&page=0&pageSize=10
其中:
productId:商品id
score:评分
page:当前页面
pageSize:页面评论size
商品页面url:https://item.jd.com/100005324042.html
thus,找亮点,总结规律,你会发现新大陆
爬取数据
Jsoup爬虫工具类

本文介绍了如何利用HttpClient爬取某东商品评论的Json格式数据。通过分析页面网络请求,找到评论数据的URL,解析出商品ID、评分、页数和每页评论数量等关键参数,从而实现动态获取评论信息。示例中展示了具体商品的URL和Json数据请求地址,揭示了爬取此类数据的技巧和规律。
633

被折叠的 条评论
为什么被折叠?



