京东商品差评获取

博客介绍了RPA自动获取商品差评信息的应用场景,包括市场研究、竞争分析等。详细阐述了主流程和子流程的操作步骤,如打开Excel、创建文件、获取信息等。还指出RPA上手简单、能提升工作效率,且可反复使用,适合重复工作。

1.背景

场景一:一个市场研究员或者是一个企业的产品经理,需要下载差评来了解消费者对于某一产品或者服务的不满,以便改进他们的产品或服务。

场景二:一个人是某个企业的竞争对手,需要下载差评来了解他们的竞争对手的弱点,以便制定更有效的策略。

场景三:一个消费者,可能需要下载差评来做出更明智的购买决策。通过阅读差评,消费者可以了解到产品的缺点,这可能影响他们的购买决策。

场景四:一个产品开发者,需要下载差评来了解用户对于产品的反馈,以便在未来的产品开发中避免同样的问题。

2.效果展示

人工操作步骤

  1. 打开谷歌浏览器
  2. 输入京东商品地址
  3. 点击商品评价
  4. 点击差评

rpa详细操作步骤

说明:本程序核心用到:主流程调用子流程、自动获取系统路径,创建文件夹,创建文件,截取文本、点击元素、写入内容到excel

主流程

1、打开存放商品链接的excel,读取excel中的内容

注意:

1:从excel中读取的文件,赋值给一个名为商品array的列表,用于方便后续循环遍历

2:读取完excel中的数据之后,需要释放excel

excel的模板已经放置在应用的资源文件下,如下图

2、创建写入差评信息的excel文件

步骤:

1:获取桌面路径

2:获取当日期,对当前日期进行截取,获得日期字符串,命名为date_folder

3:在桌面创建路径为/123/date_folder的文件见

4:在上面文件中创建一个名为商品差评的excel

3、在新建的文件"商品差评.xlsx"文件中插入表头

表头为:用户名称、评价信息、评价时间

4、循环遍历商品列表,获取每个商品地址

5、读取当前页的产品信息,写入到"商品差评.xlsx"文件中

1:循环遍历的商品地址,要先判断是不是表头名称,不为表头地址才能用谷歌浏览器打开

2:用谷歌浏览器打开商品地址

3:点击商品评价,点击差评

4:调用子流程获取当前页的差评信息

5:将当前差评信息追加写入发到"商品差评.xlsx"文件中

6、循环点击下一页,获取差评信息,找到下一页按钮消失(即为到达最后一页)

7、释放"商品差评.xlsx"文件

子流程

1、设置子流程输入输出

2、定义三个列表:评价列表、用户名列表、时间列表

分别用于存储:产品内容、评价人用户名、评价时间

3、获取用户名,插入到用户名列表里

4、获取差评内容,插入到评价内容列表

5、获取评价时间,插入到时间列表

6、将获取到的差评数据进行重新组装,是的用户名、评价内容、评价时间完全对应

3.小结

整体使用下来的我的感受还是很不错的,总结了如下几个有点

1:上手简单

对于我们演示的场景,rpa学习起来很简单,对于完全不懂的小伙伴按照我上面的步骤4个小时就可以完成。

2:提升工作效率

如果人工将多个商品差评汇总到excel中,是一个很慢的过程,而rpa只需要在模板你进行链接配置,急需要分钟级别,后续工作全部交给rpa来完成。工作效率提升不只是一倍

3:使用rpa做出来的场景我们可以反复使用,开发一次,使用n遍,对于这种重复的工作交给rap来做很是合适

### 如何使用爬虫抓取京东商品差评数据 为了成功抓取京东商品差评数据,需考虑平台的反爬机制并采取相应策略。以下是详细的解决方案: #### 了解目标结构 京东商品页面通常会通过异步加载方式展示用户评价,特别是对于不同类型的评分(如好评、中评、差评),这些信息往往存储于JSON格式的数据包内[^2]。 #### 构建请求URL 构建特定用于获取差评记录的API URL至关重要。一般情况下,可以通过分析正常浏览网页时浏览器发出的网络请求来找到这个接口地址。该链接可能包含参数指定要检索的是哪类反馈——在此处即为负面意见。 ```python import requests url = 'https://club.jd.com/comment/productPageComments.action' params = { 'callback': 'fetchJSON_comment98', 'productId': '<product_id>', # 替换为目标产品的ID 'score': 1, # 设置分数为1代表只查看差评 'sortType': 5, 'page': 0 # 开始页码 } headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'} response = requests.get(url=url,params=params, headers=headers).text.strip('fetchJSON_comment98();') ``` 这段代码展示了如何设置HTTP GET 请求中的查询字符串以指向差评列表,并去除回调函数包裹以便后续处理 JSON 数据[^4]。 #### 解析返回内容 由于响应体是以 JavaScript 函数调用的形式封装的实际 JSON 结果串,在实际解析前需要先去掉开头结尾不必要的字符。之后就可以利用 Python 的 `json` 库轻松转换成字典对象访问其中的关键字段了。 ```python import json data_dict = json.loads(response) comments = data_dict['comments'] for comment in comments: print(comment['content']) # 输出每条评论的文字描述 ``` 上述片段说明了怎样把服务器回应转化为易于操作的对象形式,并遍历所有评论项打印出它们的具体文本。 #### 处理分页逻辑 考虑到单次 API 调用所能获得的结果数量有限制,因此还需要循环增加 page 参数值重复发送请求直到收集到足够的样本量为止。 #### 存储与管理采集来的资料 最后一步则是决定将取得的信息存放在哪里以及采用何种方式进行管理和再利用。可以考虑建立本地文件系统下的 CSV 文件或是连接远程数据库服务来进行持久化保存[^3]。 ```sql INSERT INTO jd_product_reviews(product_id, review_text, rating) VALUES ('<product_id>', '<review_content>', 1); ``` 此 SQL 插入语句示范了一个简单的方案用来向关系型数据库表里新增一条来自用户的不满声音记录。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值