[Airbnb] 用Python统计含有中文评论的行,用词云图进行可视化

本文介绍了如何使用Python从Airbnb的数据中统计含有中文评论的行,并通过正则表达式匹配中文编码范围。接着利用jieba库进行分词,采用精确模式、全模式和搜索引擎模式,最后对高频词汇进行词云图的可视化,显示‘干净’、‘整洁’、‘方便’、‘热情’等词出现频繁。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

统计含有中文的行,使用jieba库分词后用词云图进行展示

一、数据来源

  1. 数据来源:https://tianchi.aliyun.com/competition/entrance/231715/information
  2. 采用了reviews_detail.csv表的数据。该表记录了短租房评论相关的内容和作者信息;
  3. 使用了python3.7.1,pycharm社区版2019.2。

二、数据读取

导入模块

import pandas as pd
import re

读取数据

io3 = 'D:/PythonProject/(天池)短租数据集分析/数据集-明细版/reviews_detail/reviews_detail.csv'
data = pd.read_csv(io3)
reviews_detail_df = pd.DataFrame(data)
# 提取评论内容,且需要转换成字符串类型
reviews_detail_df_c = reviews_detail_df['comments'].astype(str)
print
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值