Pandas使用教程 - Pandas 数据清洗与处理：缺失值、重复值与异常值的系统实践

本文链接：https://blog.youkuaiyun.com/qq_42568323/article/details/145481660

Pandas 数据清洗与处理：缺失值、重复值与异常值的系统实践

在实际数据分析过程中，数据质量往往直接决定了分析结果的可靠性。原始数据通常存在各种问题，例如缺失值、重复数据和异常值等，这些问题如果不加以处理，将会导致后续的数据建模、统计分析和机器学习结果产生偏差甚至错误。本文将深入介绍如何利用 Pandas 进行数据清洗与处理，主要聚焦于缺失值、重复值以及异常值的检测和处理方法。文章不仅提供详细的理论讲解，还附有大量的 Python 代码示例、数学公式（使用 $ 进行转义）以及使用 Mermaid 语法绘制的示意图，帮助你系统掌握数据清洗的整个流程。

1. 数据清洗的重要性与基本概念

在数据科学领域，“数据清洗”指的是对数据进行预处理，修正或删除数据中的错误、缺失、重复或不合理的数据点。一个干净的数据集不仅可以减少分析过程中的噪声，还能提高模型预测的准确性。数据清洗的过程通常包括以下几个步骤：

缺失值处理：检测数据中的空值或 NA 值，并采取适当的填充、插值或删除策略。
重复值处理：检测数据中重复出现的记录，避免数据冗余对统计分析的影响。
异常值处理：通过统计方法或可视化手段检测远离主要数据分布的异常数据点，并做进一步处理。
数据类型转换和规范化：确保每一列数据具有正确的数据类型和统一的标准。

数学上，我们可以将原始数据集 $D$ 看作一个矩阵，其中元素用 $d_{ij}$ 表示。数据清洗的过程可以看成是从原始矩阵 $D$ 中通过一系列函数 $f$ 得到清洗后的矩阵 $D^{'}$ ：
$D^{'} = f (D)$
其中函数 $f$ 包括缺失值处理、重复值去除、异常值检测与修正等操作。只有当数据满足一定质量标准时，后续的分析工作才能取得可靠结果。

2. 缺失值的检测与处理

2.1 缺失值的识别

在 Pandas 中，缺失值通常以 NaN（Not a Number）或 None 表示。检测缺失值主要依赖于以下几个方法：

isnull() 与 notnull()：分别用于返回一个布尔型 DataFrame，标识哪些位置是缺失值或非缺失值。

示例代码：

import pandas as pd
import numpy as np

# 构造示例数据，包含缺失值
data = {
    "姓名": ["张三", "李四", "王五", "赵六", None],
    "年龄": [28, np.nan, 32, 40, 25],
    "城市": ["北京", "上海", None, "广州", "深圳"]
}
df = pd.DataFrame(data)
print("原始数据：")
print(df)

# 检测缺失值
print("\n缺失值检测：")
print(df.isnull())

输出中，True 表示该位置存在缺失值，False 表示数据完整。

2.2 删除缺失值

针对缺失值，我们可以选择直接删除相关行或列，但需要根据数据的重要性和缺失比例做出判断：

dropna()：删除包含缺失值的行或列。

示例代码：

# 删除所有包含缺失值的行
df_drop_rows = df.dropna()
print("\n删除缺失值后的数据（删除行）：")
print(df_drop_rows)

# 删除所有包含缺失值的列
df_drop_cols = df.dropna(axis=1)
print("\n删除缺失值后的数据（删除列）：")
print(df_drop_cols)

删除操作简单直接，但如果缺失值较多，可能会导致数据量大幅减少，不适合直接删除。

2.3 填充缺失值

在许多情况下，我们更倾向于对缺失值进行填充，而不是删除。Pandas 提供了多种填充方法：

fillna()：使用指定值或方法填充缺失值。

示例代码：

# 使用固定值填充缺失值
df_filled_value = df.fillna("未知")
print("\n使用固定值填充缺失值：")
print(df_filled_value)

# 针对数值型数据，可以使用均值、中位数等统计值进行填充
mean_age = df["年龄"].mean()
df_filled_age = df.copy()
df_filled_age["年龄"] = df_filled_age["年龄"].fillna(mean_age)
print("\n使用均值填充年龄缺失值：")
print(df_filled_age)

# 使用前向填充（ffill）或后向填充（bfill）
df_ffill = df.fillna(method="ffill")
print("\n使用前向填充填充缺失值：")
print(df_ffill)

此外，还可以使用 插值法 对数值型数据进行填充，例如使用 interpolate() 方法：

# 使用线性插值法填充缺失值
df_interpolated = df.copy()
df_interpolated["年龄"] = df_interpolated["年龄"].interpolate(method="linear")
print("\n使用线性插值法填充年龄缺失值：")
print(df_interpolated)

2.4 缺失值处理的策略选择

在实际项目中，缺失值的处理策略需要结合具体业务场景和数据分布特点进行选择。常用策略包括：

删除法：当缺失值比例较低且数据冗余时可直接删除缺失记录。
均值/中位数/众数填充：适用于数值型数据，能保持数据分布的中心趋势。
插值法：适用于时间序列数据或连续数据，通过前后数据趋势进行填充。
预测填充：利用机器学习算法预测缺失值，但需要额外建模工作。

合理选择策略可以在保留大部分数据的同时，最大程度降低缺失数据带来的误差。

3. 重复值的检测与处理

重复值在数据采集或数据合并过程中非常常见，如果不加以处理，可能导致统计结果重复计算，从而影响分析结论。

3.1 检测重复值

Pandas 提供了 duplicated() 方法，用于检测 DataFrame 或 Series 中重复的数据。该方法返回一个布尔型 Series，标记出每个元素是否为重复项。

示例代码：

# 构造包含重复值的示例数据
data_dup = {
    "姓名": ["张三", "李四", "王五", "张三", "李四"],
    "年龄": [28, 32, 30, 28, 32],
    "城市": ["北京", "上海", "广州", "北京", "上海"]
}
df_dup = pd.DataFrame(data_dup)
print("原始数据：")
print(df_dup)

# 检测重复值
dup_flags = df_dup.duplicated()
print("\n重复值检测结果：")
print(dup_flags)

在默认情况下，duplicated() 方法将标记除第一次出现之外的重复项为 True。

3.2 删除重复值

使用 drop_duplicates() 方法可以删除重复行。你可以选择保留第一条或最后一条重复记录，或者删除所有重复记录。

示例代码：

# 删除重复行，保留第一条记录
df_no_dup = df_dup.drop_duplicates()
print("\n删除重复值后的数据（保留第一条）：")
print(df_no_dup)

# 删除重复行，保留最后一条记录
df_no_dup_last = df_dup.drop_duplicates(keep="last")
print("\n删除重复值后的数据（保留最后一条）：")
print(df_no_dup_last)

3.3 根据特定列检测重复值

有时只需要基于部分列进行重复值检测，这时可以传入 subset 参数。例如，仅根据“姓名”和“年龄”判断是否重复：

df_dup_subset = df_dup.drop_duplicates(subset=["姓名", "年龄"])
print("\n根据姓名和年龄删除重复值后的数据：")
print(df_dup_subset)

合理处理重复值能确保数据的唯一性和统计结果的准确性。

4. 异常值的检测与处理

4.1 异常值的定义

异常值（Outliers）是指那些与数据集其他数据显著不同的数据点。异常值可能由数据录入错误、设备故障或自然波动引起。异常值若不加处理，可能会扭曲数据的分布和统计指标。例如，在计算均值时，极端值会产生较大影响。

4.2 常用的异常值检测方法

4.2.1 Z-Score 方法

Z-Score（标准分数）是检测异常值的一种常用方法，其计算公式为
$\frac{x - \mu}{\sigma}$
其中 $x$ 是数据点， $\mu$ 是均值， $\sigma$ 是标准差。通常，当 $∣ z ∣$ 大于 3 时，可以认为该数据点为异常值。

示例代码：

import numpy as np

# 构造示例数据：包含异常值的年龄数据
ages = pd.Series([25, 27, 26, 30, 29, 100, 28, 27, 26])
mean_age = ages.mean()
std_age = ages.std()

# 计算 Z-Score
z_scores = (ages - mean_age) / std_age
print("\n年龄数据的 Z-Score：")
print(z_scores)

# 过滤出异常值（|z| > 3）
outliers_z = ages[np.abs(z_scores) > 3]
print("\n检测到的异常值（Z-Score 方法）：")
print(outliers_z)

4.2.2 IQR 方法

另一种常用方法是利用四分位距（Interquartile Range, IQR）。首先计算数据的第 25% 分位数 ( $Q 1$ ) 和第 75% 分位数 ( $Q 3$ )，然后计算 IQR：
$I QR = Q 3 - Q 1$
一般认为小于 $\times IQR$ 或大于 $\times IQR$ 的数据点为异常值。

示例代码：

# 计算四分位数
Q1 = ages.quantile(0.25)
Q3 = ages.quantile(0.75)
IQR = Q3 - Q1

print("\n年龄数据的四分位数：")
print("Q1 =", Q1, " Q3 =", Q3, " IQR =", IQR)

# 定义异常值边界
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 筛选出异常值
outliers_iqr = ages[(ages < lower_bound) | (ages > upper_bound)]
print("\n检测到的异常值（IQR 方法）：")
print(outliers_iqr)

4.3 异常值的处理策略

检测到异常值后，有几种常见的处理方式：

删除异常值：适用于异常值数量极少且对总体数据无关紧要时，直接将异常值删除。
修正异常值：如果异常值是由于录入错误或测量错误导致，可以根据合理的范围进行修正或替换。
替换为统计量：用均值、中位数或分位数替换异常值，使数据分布更稳定。
标记异常值：在某些情况下，异常值可能本身具有研究意义，直接标记后单独处理。

示例代码（删除异常值）：

# 假设我们使用 IQR 方法检测异常值，并将其删除
df_cleaned = ages[~((ages < lower_bound) | (ages > upper_bound))]
print("\n删除异常值后的数据：")
print(df_cleaned)

5. 数据清洗整体流程示意

为了直观展示数据清洗的整体流程，我们可以使用 Mermaid 绘制一个流程图，描述从数据加载到缺失值处理、重复值处理和异常值检测的步骤：

这个流程图展示了数据清洗的一般步骤，帮助我们构建清晰的数据预处理流程。

6. 实战案例：电商订单数据清洗

下面通过一个完整的案例，展示如何对电商订单数据进行清洗处理。假设我们有一个 CSV 文件 orders.csv，其中包含如下字段：

订单ID
用户ID
订单金额
订单日期
支付状态

数据中可能存在以下问题：

缺失值：例如订单金额缺失或支付状态未填写；
重复值：同一订单重复记录；
异常值：订单金额异常高或异常低，可能由录入错误导致。

6.1 数据加载与初步查看

import pandas as pd

# 读取订单数据，并解析日期字段
df_orders = pd.read_csv("data/orders.csv", parse_dates=["订单日期"])
print("订单数据预览：")
print(df_orders.head())
print("\n订单数据结构信息：")
df_orders.info()

6.2 缺失值处理

首先检查缺失值情况：

# 统计各列缺失值数量
missing_counts = df_orders.isnull().sum()
print("\n缺失值统计：")
print(missing_counts)

根据统计结果，对关键字段进行填充或删除。例如，对于订单金额缺失，我们可以选择用该列的均值填充：

mean_amount = df_orders["订单金额"].mean()
df_orders["订单金额"] = df_orders["订单金额"].fillna(mean_amount)

对于支付状态缺失，若业务上认为缺失表示未支付，可以填充默认值：

df_orders["支付状态"] = df_orders["支付状态"].fillna("未支付")

若某些行缺失过多，则可以考虑删除这些行：

df_orders = df_orders.dropna(thresh=3)  # 至少保留3个非缺失值

6.3 处理重复值

检查重复订单记录：

duplicates = df_orders.duplicated(subset=["订单ID"])
print("\n重复订单记录数量：", duplicates.sum())

# 删除重复记录，保留第一条
df_orders = df_orders.drop_duplicates(subset=["订单ID"])

6.4 异常值检测与处理

对订单金额进行异常值检测。假设我们认为订单金额异常值是使用 IQR 方法来检测：

Q1 = df_orders["订单金额"].quantile(0.25)
Q3 = df_orders["订单金额"].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print("\n订单金额异常值检测边界：")
print("下界 =", lower_bound, " 上界 =", upper_bound)

# 筛选异常值
outliers = df_orders[(df_orders["订单金额"] < lower_bound) | (df_orders["订单金额"] > upper_bound)]
print("\n检测到的异常订单金额：")
print(outliers)

对于异常值的处理，可以根据业务逻辑决定是否删除或进行修正。如果异常订单数量较少，建议删除这些记录：

df_orders = df_orders[~((df_orders["订单金额"] < lower_bound) | (df_orders["订单金额"] > upper_bound))]
print("\n删除异常订单金额后的数据：")
print(df_orders.head())

6.5 最终清洗数据验证

数据清洗后，最后一步是验证数据的一致性和完整性，常用方法有 info() 和 describe()：

print("\n清洗后数据的结构信息：")
df_orders.info()

print("\n清洗后订单金额的描述性统计：")
print(df_orders["订单金额"].describe())

通过这些验证步骤，我们确保数据已经达到可用于后续分析的质量标准。

7. 数据清洗的最佳实践与注意事项

在实际项目中，数据清洗是一项迭代性工作，以下几点最佳实践可供参考：

制定清洗策略
根据数据来源、业务场景和后续分析需求，制定详细的数据清洗方案。不要一味追求完美，合理平衡数据完整性和数据噪声。
分阶段进行清洗
将数据清洗过程分为多个阶段（缺失值、重复值、异常值），逐步检查和处理，便于定位问题并记录日志。
备份原始数据
每次数据清洗前，备份原始数据，以防操作错误导致数据不可恢复。
合理填充缺失值
对缺失值填充时，选择合适的填充值和方法（均值、中位数、插值等），确保数据分布不被人为扭曲。
多种方法结合
使用统计方法（如 Z-Score、IQR）结合可视化手段（箱线图、直方图）检测异常值，提高检测准确性。
记录清洗日志
对数据清洗的每一步操作进行记录，方便后续追溯和团队协作。
验证与反馈
清洗后要对数据进行严格验证，确保处理结果符合业务逻辑，同时邀请领域专家提供反馈。

8. 总结与展望

本文详细介绍了 Pandas 在数据清洗与处理中的关键技术，包括缺失值、重复值和异常值的检测与处理方法。我们讨论了如何使用 Pandas 的内置函数（如 isnull(), dropna(), fillna(), duplicated(), drop_duplicates(), describe() 等）来快速识别和解决数据中的常见问题，并通过代码示例和数学公式解释了数据处理的原理。利用 IQR 和 Z-Score 方法进行异常值检测，为数据清洗提供了科学依据。

数据清洗是数据分析项目中的第一步，只有经过充分清洗的数据才能保证后续数据建模、机器学习和决策分析的准确性和有效性。通过本章的学习，希望你能够在实际项目中灵活应用这些技术，提高数据预处理的效率和质量。同时，也鼓励大家在不断实践中总结经验，针对不同数据集设计个性化的数据清洗方案。

未来，你还可以进一步探索数据转换、标准化、特征工程等高级数据预处理技术，构建完整的数据管道，为数据挖掘和智能决策提供坚实基础。

9. 扩展阅读与资源推荐

为了进一步提升数据清洗与处理技能，建议参考以下资源：

Pandas 官方文档
详细介绍了所有与数据清洗相关的函数和参数，是学习数据预处理的权威参考。
citeturn0search0
《Python 数据科学手册》
本书提供了大量实际案例，涵盖从数据清洗到机器学习全流程的实践，非常适合希望系统掌握数据处理技术的读者。
citeturn0search0
数据清洗相关博客与视频教程
网络上有很多优质的教程和实战案例，例如关于异常值检测的详细讲解和可视化方法分享。
citeturn0search0
统计学与数据分析基础
掌握均值、标准差、分位数、IQR、Z-Score 等统计概念，有助于更深入理解数据清洗方法的数学原理。
citeturn0search0

10. 总结

数据清洗是数据科学工作流程中不可或缺的一环，直接关系到模型的质量与分析结果的可靠性。本文围绕 Pandas 中的缺失值、重复值和异常值处理展开讨论，通过丰富的代码示例、公式说明和流程图展示，为你提供了系统的清洗思路和操作方法。从检测、删除到填充，再到利用统计方法识别异常数据，我们全面讲解了数据清洗的每个细节。

希望通过本文的学习，你能够在实际项目中迅速识别数据问题，并采取合适的策略进行处理，最终获得高质量的分析数据。不断总结和完善数据清洗方案，是每一位数据分析师和数据工程师不断进步的重要步骤。

以上就是关于 Pandas 数据清洗与处理 (缺失值, 重复值, 异常值) 的详细讲解。通过系统掌握这些技能，你将能够为数据分析、机器学习建模及商业决策提供坚实的数据基础，从而在数据驱动的世界中获得更多竞争优势。