Python实现简单的数据预处理方法
数据清洗大作战:Python带你轻松搞定脏数据
在开始任何数据分析或机器学习项目之前,我们首先要面对的往往是一堆“脏数据”。这些数据可能包含了错误、不一致或是格式混乱等问题。这就像是在烹饪前需要先清理食材一样,只有干净的数据才能做出美味的菜肴。幸好,有了Python和Pandas这样的利器,我们可以轻松地进行数据清洗。
首先,让我们加载一个示例数据集,并查看其状态:
import pandas as pd
# 假设有一个CSV文件 'data.csv'
df = pd.read_csv('data.csv')
print(df.head())
这一步是了解你的数据的第一步。接下来,我们可以检查是否存在重复记录以及它们的基本统计信息。
# 查找并删除完全相同的行
df.drop_duplicates(inplace=True)
# 显示每列的非空值数量
print(df.info())
缺失值不再愁:用Pandas玩转数据填补技巧
就像一块拼图少了几个小块儿,缺失值让我们的数据看起来不完整。但是别担心,Pandas提供了多种方式来处理这些问题。对于数值型数据,常见的做法是填充平均数或者中位数;而对于分类变量,则可以考虑使用众数来填补。
这里以年龄字段为例,演示如何用平均值来填充:
# 计算年龄的平均值
mean_age =<