python怎么处理表格的去重

Rhys..

于 2025-01-13 16:00:02 发布

阅读量370

点赞数 7

文章标签： python pandas 开发语言

本文链接：https://blog.youkuaiyun.com/m0_60008263/article/details/145117860

版权

在 Python 处理表格时，可以使用 pandas 库中的 drop_duplicates 方法对一个表格进行去重。这个方法能够根据某些列或者所有列的重复值来删除重复的行，并保留第一次出现的行或指定保留的情况。

让我们来看一下如何对一个 Excel 表格去重的示例。假设你有一个 Excel 文件 data.xlsx，我们要对其中的数据进行去重。

首先，请确保你已经安装了 pandas 库。如果尚未安装，请使用以下命令进行安装：

pip install pandas

以下是一个示例代码，演示如何对一个表格进行去重：

import pandas as pd

# 读取 Excel 文件到 DataFrame 中
df = pd.read_excel('data.xlsx')

# 打印原始 DataFrame（可选）
print("原始 DataFrame:")
print(df)

# 使用 drop_duplicates 方法去重
# 根据 A 列去重，保留第一次出现的行
df_unique = df.drop_duplicates(subset=['A'], keep='first')

# 打印去重后的 DataFrame（可选）
print("\n去重后的 DataFrame:")
print(df_unique)

# 将结果保存到一个新的 Excel 文件中
df_unique.to_excel('data_unique.xlsx', index=False)

方法说明

pd.read_excel('data.xlsx'): 读取 Excel 文件 data.xlsx，并将其内容存储到一个 pandas DataFrame 中。
drop_duplicates(subset=['A'], keep='first'): 根据列 A 进行去重。subset 参数指定用于去重的列，keep='first' 参数表示保留第一次出现的行。
to_excel('data_unique.xlsx', index=False): 将去重后的 DataFrame 写入新的 Excel 文件 data_unique.xlsx 中。

可选配置

如果你希望基于多个列进行去重，可以指定多个列名，例如 subset=['A', 'B']。
如果希望保留最后一次出现的行，可以使用 keep='last'。
如果希望删除所有重复项，只保留唯一值，可以使用 keep=False。

示例如下：

多列去重：

# 根据 A 列和 B 列组合去重
df_unique = df.drop_duplicates(subset=['A', 'B'], keep='first')

保留最后一次出现的行：

# 根据 A 列去重，保留最后一次出现的行
df_unique = df.drop_duplicates(subset=['A'], keep='last')

删除所有重复项：

# 根据 A 列去重，删掉所有重复项，仅保留唯一值
df_unique = df.drop_duplicates(subset=['A'], keep=False)

你可以根据具体需求调整参数，从而实现你想要的去重效果