python数据分析,爬取某东商城商品评论数据并做词云展示。
一、明确爬取的网页及结构
找到要爬取的网页地址,发现有一个获取json格式评论数据的接口:
url = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=21738292624&score=0&sortType=5&page={pno}&pageSize=10&isShadowSku=0&rid=0&fold=1"
分析其中的结构,可以知道,其中的productId就是商品的ID,如果要爬取某个商品的评论数据,只需要更换这个值即可。可以直接把这个url复制到浏览器中访问,可以看到确实有数据:
其中的page就是页码,如果评论有多页,就需要改变这个值从而实现多页的爬取。