python数据清洗--数据预处理

最新推荐文章于 2024-07-15 08:30:00 发布

qiuqiu1027

最新推荐文章于 2024-07-15 08:30:00 发布

阅读量2k

点赞数 1

分类专栏：商业分析 python代码

本文链接：https://blog.youkuaiyun.com/qiuqiu1027/article/details/104998925

版权

本文详细介绍了Python数据清洗过程，包括处理重复值（如订单数据），缺失值的识别与填充（如均值、前向、后向替换），异常值检测与处理（如箱线图法、标准差法），以及数据离散化（等频、等宽分箱）。通过pandas库的函数如pd.cut和pd.qcut实现数据分箱，提高数据分析的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 重复值处理

• 数据清洗一般先从重复值和缺失值开始处理
• 重复值一般采取删除法来处理
• 但有些重复值不能删除，例如订单明细数据或交易明细数据等

df.head(5)
#对价格和里程数数据进行处理
# 自定义一个函数
def f(x):
    if '$' in str(x):
        x = str(x).strip('$')
        x = str(x).replace(',','')
    else:
        x = str(x).replace(',','')
    return float(x)
df['Price'] =  df['Price'] .apply(f)
df['Mileage'] = df['Mileage'].apply(f)
print ('数据集是否存在重复观测: \n', any(df.duplicated()))
df[df.duplicated()] #查看那些数据重复
np.sum(df.duplicated()) #计算重复数量
df.drop_duplicates() #删除所有变量都重复的行, 注意没有加inplace = True
df.drop_duplicates(subset= ['Condition','Condition_Desc','Price','Location'],inplace=True) #按照两个变量重复来来去重
df.info()