版权声明:本文为博主原创文章,未经博主允许不得转载。
一、项目要求
1、成功读取“商铺数据.csv”文件
2、解析数据,存成列表字典格式:[{
'var1':value1,'var2':value2,'var3':values,...},...,{
}]
3、数据清洗:
① comment,price两个字段清洗成数字
② 清除字段缺失的数据
③ commentlist拆分成三个字段,并且清洗成数字
4、结果存为.pkl文件
二、代码实现
2.1 读取数据
f = open('商铺数据.csv','r', encoding='utf8')
# 查看数据
for lint in f.readlines()[:5]:
print(lint.split(','))
2.2 数据清洗
创建 comment、price、commentlist
# 函数式编程
# comment 清洗函数:用空格分段,选取结果 list 的第一个为点评数,并且转换为整型
def fcm(s):
if '条' in s:
return int<

本文是数据分析实战的第二部分,主要讲解如何使用Python进行数据清洗。首先介绍项目要求,接着通过代码详细展示了如何读取数据,接着进行关键步骤的数据清洗,包括处理comment、price和commentlist等字段,最后阐述了数据的存储方法。
最低0.47元/天 解锁文章
576

被折叠的 条评论
为什么被折叠?



