亚马逊评论爬虫+数据分析

爬取评论

做分析首先得有数据,数据是核心,而且要准确!

  1. 爬虫必要步骤,选好框架
  2. 开发所需数据
  3. 最后测试流程
  • 这里我所选框架是selenium+request,很多人觉得selenium慢,确实不快,仅针对此项目我做过测试,相对于request要快,要方便一些!也可以用你们熟悉的框架,用的趁手就行!
  • 最核心的要采用无浏览器模式,这样会快很多
  • 安装浏览器对应webdriver版本

http://npm.taobao.org/mirrors/chromedriver/

获取评论数,评级数, 监控评论
·亚马逊产品评论分为5个等级,从1到5
    def get_review_summarys(self):

        # 解析评论星级
        def parse(site, asin, rating, html):
            # 解析评论星级
            selector = etree.HTML(html)
            title = select(selector, "//a[@data-hook='product-link']/text()", 0, None)
            if not title:
                return site, asin, self.parent_asin, None, None, None, None
            review_rating_count = select(selector, "//div[@data-hook='cr-filter-info-review-rating-count']/span/text()",0,
                                         None)
            if review_rating_count:
                review_rating_count = [s.strip() for s in review_rating_count.split("|")]
                rating_count = int(review_rating_count[0].split(" ")[0].replace(",", ""))
                review_count = int(review_rating_count[1].split(" ")[0].replace(",", ""))
                only_rating_count = rating_count - review_count
            else:
                rating_count = None
                review_count = None
                only_rating_count = None
            print(site, asin, rating, rating_c
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值