Python中高效实现数据去重的5种实用方法

最新推荐文章于 2025-12-21 18:02:21 发布

原创最新推荐文章于 2025-12-21 18:02:21 发布 · 335 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

### 使用集合去重

集合是Python中无序且不重复的元素集合，利用这一特性可以快速去除列表中的重复元素。这种方法简单高效，适用于任何可哈希的数据类型。

```python

original_list = [1, 2, 2, 3, 4, 4, 5]

unique_list = list(set(original_list))

print(unique_list) # 输出：[1, 2, 3, 4, 5]

```

### 使用字典键去重

字典的键具有唯一性，可以利用这一特性去除重复数据。这种方法在保留顺序的同时去重，适用于需要保持元素顺序的场景。

```python

original_list = [1, 2, 2, 3, 4, 4, 5]

unique_list = list(dict.fromkeys(original_list))

print(unique_list) # 输出：[1, 2, 3, 4, 5]

```

### 使用列表推导式配合条件判断

通过列表推导式和条件判断，可以手动控制去重逻辑，适用于需要自定义去重规则的场景。

```python

original_list = [1, 2, 2, 3, 4, 4, 5]

unique_list = []

[unique_list.append(x) for x in original_list if x not in unique_list]

print(unique_list) # 输出：[1, 2, 3, 4, 5]

```

### 使用Pandas库处理数据框去重

Pandas是数据处理的重要库，适用于处理表格数据。通过`drop_duplicates`方法可以轻松去除数据框中的重复行。

```python

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 2, 3], 'B': [4, 5, 5, 6]})

df_unique = df.drop_duplicates()

print(df_unique)

```

### 使用`collections.OrderedDict`保持顺序去重

`OrderedDict`可以保持键的插入顺序，适用于需要去重且保留元素原始顺序的场景。

```python

from collections import OrderedDict

original_list = [1, 2, 2, 3, 4, 4, 5]

unique_list = list(OrderedDict.fromkeys(original_list))

print(unique_list) # 输出：[1, 2, 3, 4, 5]

```

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。