Python数据清洗之重复数据处理

最新推荐文章于 2025-11-25 11:44:22 发布

原创

最新推荐文章于 2025-11-25 11:44:22 发布 · 1.3k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

大家好，在数据处理和分析的过程中，重复数据是一个常见的问题。重复的数据不仅会影响数据的准确性，还可能导致模型训练中的偏差。因此，检测并清理重复数据是数据清洗中的重要步骤。Python 的 Pandas 提供了强大的功能来检测、标记和删除重复数据，同时可以灵活设置规则以满足各种场景需求。本文将深入讲解 Pandas 中重复数据处理的常用方法，包括duplicated方法检测重复、drop_duplicates方法删除重复数据，并结合实际案例展示不同的清理策略。

重复数据可能由多种原因引起，例如数据录入错误、重复采集或合并数据集时的重复记录。处理重复数据主要是减少数据中的冗余信息，确保数据一致性，提高分析效率，避免重复数据导致的结果偏差，优化存储空间减少存储资源的浪费。无论是数据分析还是机器学习，处理重复数据都是保证数据可靠性的关键步骤。

1.数据准备

以一个包含重复数据的示例数据集为例，演示重复数据的检测和删除方法：

import pandas as pd

# 示例数据
data = {
    "Name": ["Alice", "Bob", "Alice", "David", "Bob", "Eve", "Alice"],
    "Age": [25, 30, 25, 35, 30, 40, 25],
    "City": ["NY", "LA", "NY", "SF", "LA", "NY", "NY"]
}

df = pd.DataFrame(data)
print("原始数据：\n", df)

输出如下所示：

     Name  Age City
0   Alice   25   NY
1     Bob   30   LA
2   Alice   25   NY
3   David   35   SF
4     Bob   30   LA
5     Eve   40   NY
6   Alice   25   NY

2.检测重复数据：duplicated方法

duplicated方法用于检测数据框中重复的行，它会标记出除了第一次出现外的重复行。

2.1 基本用法

# 检测重复行
df["Is_Duplicate"] = df.duplicated()
print("标记重复行后的数据：\n", df)

输出如下所示：

     Name  Age City  Is_Duplicate
0   Alice   25   NY         False
1     Bob   30   LA         False
2   Alice   25   NY          True
3   David   35 &nb