【夜曲编程-Python数据分析】电商交易数据清洗（考查的基础比较全面的一道数据清洗综合习题）

最新推荐文章于 2024-03-24 22:41:39 发布

原创

最新推荐文章于 2024-03-24 22:41:39 发布 · 684 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据分析 #数据挖掘

本文描述了一个使用Python的Pandas库对电商交易数据进行清洗的过程，包括处理异常值（如负值和重复值）、转换数值单位以及调整时间格式。数据集包含order_id、user_id、payment等字段，所有异常值和不合理的数据已删除，数据被转换为合适的形式。

夜曲编程——电商交易数据清洗

题目
解题代码

题目

CC拿到了一份2018.01.01–2019.06.30平台销售订单数据。她需要对这份数据进行清洗。
这份数据在工作目录下，文件名是"180101-190630交易数据.csv"。路径为：“180101-190630交易数据.csv”。数据集简介如下：
各个字段的要求如下：
id，作为index
order_id，不存在<=0的异常值，不存在重复值
user_id，不存在<=0的异常值
payment，不存在<0的异常值，转化成单位元
price，不存在<0的异常值，转化成单位元
items_count，不存在<0的异常值
cutdown_price，不存在<0的异常值，转化成单位元
post_fee，不存在<0的异常值，转化成单位元
create_time，pay_time，转化成时间格式，不存在create_time>pay_time的异常值
数据集中，是否存在缺失值、异常值、重复值，需要自行进行判断。然后再进行处理。
最后，用df.info()输出清洗后的结果。
在这里插入图片描述

解题代码

import pandas as pd

df = pd.read_csv("180101-190630交易数据.csv")

#设置索引
df = df.set_index('id')

#处理order_id的异常值
dfWrongOrder = df[(df['order_id']<=0)]
df.drop(index=dfWrongOrder.index, inplace=True)
df

最低0.47元/天解锁文章