爬取评论
做分析首先得有数据,数据是核心,而且要准确!
- 爬虫必要步骤,选好框架
- 开发所需数据
- 最后测试流程
- 这里我所选框架是selenium+request,很多人觉得selenium慢,确实不快,仅针对此项目我做过测试,相对于request要快,要方便一些!也可以用你们熟悉的框架,用的趁手就行!
- 最核心的要采用无浏览器模式,这样会快很多
- 安装浏览器对应webdriver版本
http://npm.taobao.org/mirrors/chromedriver/
-
获取评论数,评级数, 监控评论
- ·亚马逊产品评论分为5个等级,从1到5
def get_review_summarys(self):
# 解析评论星级
def parse(site, asin, rating, html):
# 解析评论星级
selector = etree.HTML(html)
title = select(selector, "//a[@data-hook='product-link']/text()", 0, None)
if not title:
return site, asin, self.parent_asin, None, None, None, None
review_rating_count = select(selector, "//div[@data-hook='cr-filter-info-review-rating-count']/span/text()",0,
None)
if review_rating_count:
review_rating_count = [s.strip() for s in review_rating_count.split("|")]
rating_count = int(review_rating_count[0].split(" ")[0].replace(",", ""))
review_count = int(review_rating_count[1].split(" ")[0].replace(",", ""))
only_rating_count = rating_count - review_count
else:
rating_count = None
review_count = None
only_rating_count = None
print(site, asin, rating, rating_c

最低0.47元/天 解锁文章
244

被折叠的 条评论
为什么被折叠?



