题目
CC拿到了一份2018.01.01–2019.06.30平台销售订单数据。她需要对这份数据进行清洗。
这份数据在工作目录下,文件名是"180101-190630交易数据.csv"。路径为:“180101-190630交易数据.csv”。数据集简介如下:
各个字段的要求如下:
id,作为index
order_id,不存在<=0的异常值,不存在重复值
user_id,不存在<=0的异常值
payment,不存在<0的异常值,转化成单位元
price,不存在<0的异常值,转化成单位元
items_count,不存在<0的异常值
cutdown_price,不存在<0的异常值,转化成单位元
post_fee,不存在<0的异常值,转化成单位元
create_time,pay_time,转化成时间格式,不存在create_time>pay_time的异常值
数据集中,是否存在缺失值、异常值、重复值,需要自行进行判断。然后再进行处理。
最后,用df.info()输出清洗后的结果。

解题代码
import pandas as pd
df = pd.read_csv("180101-190630交易数据.csv")
#设置索引
df = df.set_index('id')
#处理order_id的异常值
dfWrongOrder = df[(df['order_id']<=0)]
df.drop(index=dfWrongOrder.index, inplace=True)
df

本文描述了一个使用Python的Pandas库对电商交易数据进行清洗的过程,包括处理异常值(如负值和重复值)、转换数值单位以及调整时间格式。数据集包含order_id、user_id、payment等字段,所有异常值和不合理的数据已删除,数据被转换为合适的形式。
最低0.47元/天 解锁文章
1975

被折叠的 条评论
为什么被折叠?



