Python---数据清洗

本文详细介绍了一种有效的数据清洗流程,包括如何定位并提取关键字段,如人均价格、评论数量及星级评分等,通过实例演示了如何使用Python进行数据预处理,确保数据质量,为后续的数据分析奠定坚实基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先导入数据,并读取前5行

然后处理店铺数据,清洗comment字段:先筛选出有‘条’字的评论,再用spilt分割数据,提取评论条数后转换数据类型,用的是astype转换,并查看前5行

清洗其他字段也是一样的处理,比如清洗人均价格这个字段,这里是从¥开始分割,因为有‘人均’这俩字的不一定附带着价格,但是有‘¥’的就一定带有价格且人均价格的数字在最后一个位置,所以是提取[-1]这个位置上的数字,从前往后[0]开始,从后往前[-1]开始。

如果我想提取星级字段中的数字,那得先筛选出有‘准’字的数据,然后再提取数字

总结一下上面清洗字段的套路,我觉得是先给字段定位,也就是定位到一个能唯一找到所提取内容的位置,和筛选数据一个意思,然后再对数据进行分割,提取内容然后转换一下数据类型就可以了。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值