【Python列表去重终极指南】：9种方法对比，第5种最高效且保持顺序！

Python列表去重方法全解析

原创于 2025-10-30 12:33:13 发布 · 846 阅读

18 ·

CC 4.0 BY-SA版权

第一章：Python列表去重保持顺序方法概述

在Python开发中，列表去重是一个常见需求，尤其当需要保留元素原始顺序时，简单的集合转换（set()）无法满足要求。因此，掌握多种既能去除重复项又能保持原有顺序的方法至关重要。

使用字典去重（Python 3.7+）

从Python 3.7开始，字典保证插入顺序，因此可利用这一特性实现高效去重：

# 利用dict.fromkeys()自动去重并保持顺序
original_list = [1, 2, 2, 3, 4, 3, 5]
unique_list = list(dict.fromkeys(original_list))
print(unique_list)  # 输出: [1, 2, 3, 4, 5]

该方法简洁高效，是目前推荐的首选方式。

使用集合辅助遍历

通过维护一个已见元素的集合，在遍历过程中判断是否添加：

def remove_duplicates(lst):
    seen = set()
    result = []
    for item in lst:
        if item not in seen:
            seen.add(item)
            result.append(item)
    return result

data = ['a', 'b', 'a', 'c', 'b']
print(remove_duplicates(data))  # 输出: ['a', 'b', 'c']

性能与适用场景对比

不同方法在时间复杂度和兼容性上有所差异，以下为常见方法对比：

方法	时间复杂度	保持顺序	Python版本要求
dict.fromkeys()	O(n)	是	3.7+
集合辅助遍历	O(n)	是	所有版本
set()	O(n)	否	所有版本

若使用Python 3.7及以上，优先选择dict.fromkeys()
需兼容旧版本时，采用集合辅助的显式循环
避免使用list(set(lst))，因其不保证顺序

第二章：基于循环与条件判断的传统去重

2.1 理论基础：遍历与成员检查机制

在数据结构操作中，遍历与成员检查是基础且频繁的操作。遍历用于访问集合中的每个元素，而成员检查则判断特定元素是否存在。

常见遍历方式

顺序遍历：线性访问每个元素，时间复杂度为 O(n)
索引遍历：适用于数组等支持随机访问的结构
迭代器遍历：提供统一接口，解耦算法与数据结构

成员检查实现对比

数据结构	查找方式	平均时间复杂度
切片（Slice）	线性扫描	O(n)
哈希表（Map）	哈希计算	O(1)

func contains(list []int, target int) bool {
    for _, item := range list { // 遍历每个元素
        if item == target {     // 成员检查逻辑
            return true         // 找到则提前返回
        }
    }
    return false                // 遍历结束未找到
}

上述代码展示了线性查找的基本模式：通过 range 遍历实现元素访问，并使用值比较完成成员判定，适用于无序小规模数据场景。

2.2 实践演示：使用for循环配合if判断

在实际开发中，for循环常与if条件判断结合使用，以实现对数据集合的筛选与处理。

基础语法结构

for i := 0; i < 10; i++ {
    if i%2 == 0 {
        fmt.Println(i, "是偶数")
    }
}

该代码遍历0到9的整数，通过if判断当前值是否为偶数。其中i%2 == 0用于判断余数是否为零，成立则执行打印。

应用场景示例

过滤数组中的负数
查找满足条件的第一个元素
分类处理不同状态值

通过嵌套控制结构，可显著提升逻辑表达能力，适用于数据清洗、状态机处理等场景。

2.3 性能分析：时间复杂度与空间开销

在算法设计中，性能分析是评估效率的核心环节。时间复杂度衡量执行时间随输入规模增长的趋势，而空间复杂度反映内存占用情况。

常见复杂度对比

O(1)：常数时间，如数组访问
O(log n)：对数时间，典型为二分查找
O(n)：线性时间，如遍历链表
O(n²)：平方时间，常见于嵌套循环

代码示例：线性查找 vs 二分查找

func linearSearch(arr []int, target int) int {
    for i := 0; i < len(arr); i++ { // 循环n次
        if arr[i] == target {
            return i
        }
    }
    return -1
}
// 时间复杂度：O(n)，空间复杂度：O(1)

该函数逐个比较元素，最坏情况下需遍历全部n个元素，因此时间复杂度为O(n)。仅使用固定额外变量，空间复杂度为O(1)。

2.4 适用场景：小规模数据与可读性优先

在处理小规模数据集时，系统设计更倾向于牺牲部分性能以换取更高的可读性和维护性。这类场景常见于配置管理、本地缓存或原型开发中，数据量通常不超过数千条记录。

代码可读性优于算法复杂度

当数据体量可控时，简洁的实现比复杂的优化更重要。例如，使用结构化方式加载配置：


type Config struct {
    Host string `json:"host"`
    Port int    `json:"port"`
}
// 直接解析JSON配置文件，逻辑清晰，易于调试

该方式虽不如二进制序列化高效，但显著提升开发效率和错误排查能力。

典型应用场景

本地开发环境的模拟数据
微服务的静态配置文件
CLI工具的参数定义

这些场景下，开发者更关注语义明确与快速迭代，而非高并发处理能力。

2.5 优化建议：减少in操作的代价

在高频查询场景中，`in` 操作可能导致全表扫描，显著增加数据库负载。为降低其代价，应优先考虑使用索引字段进行查询。

避免大集合的in查询

当 `in` 子句包含大量元素时，不仅解析开销上升，执行计划可能退化为全扫描。建议将大集合拆分为批量小查询：

-- 不推荐
SELECT * FROM users WHERE id IN (1,2,...,10000);

-- 推荐分批处理
SELECT * FROM users WHERE id BETWEEN 1 AND 1000;

上述方式通过范围查询替代超长 `in` 列表，提升执行效率并减轻解析压力。

使用临时表替代超长in列表

将待查ID插入临时表
建立索引加速关联查询
通过JOIN代替in操作

例如：

CREATE TEMPORARY TABLE tmp_ids (id INT PRIMARY KEY);
INSERT INTO tmp_ids VALUES (1),(2),(3);
SELECT u.* FROM users u JOIN tmp_ids t ON u.id = t.id;

该方法适用于动态集合查询，执行计划更稳定，性能可预测。

第三章：利用字典键唯一性的去重策略

3.1 理论基础：哈希表与键的不可重复性

哈希表是一种基于键值对（key-value）存储的数据结构，通过哈希函数将键映射到数组的特定位置，实现平均时间复杂度为 O(1) 的高效查找。

键的唯一性约束

在哈希表中，每个键必须是唯一的。若插入已存在的键，通常会覆盖原有值或拒绝插入，以保证数据一致性。

冲突处理机制

当不同键映射到同一索引时发生哈希冲突。常见解决方案包括链地址法和开放寻址法。

链地址法：每个桶存储一个链表或红黑树
开放寻址法：探测下一个可用位置

type HashMap struct {
    data map[string]interface{}
}

func (m *HashMap) Put(key string, value interface{}) {
    if m.data == nil {
        m.data = make(map[string]interface{})
    }
    m.data[key] = value // 相同key会自动覆盖
}

上述 Go 代码展示了哈希表的简单实现。map 类型天然支持键的唯一性，重复赋值将更新原值，体现了键不可重复的核心特性。

3.2 实践演示：手动构建字典映射关系

在数据处理过程中，手动构建字典映射是实现字段标准化的关键步骤。通过显式定义键值对，可确保原始数据与目标语义的一致性。

基础映射结构设计

使用 Python 字典结构建立清晰的映射关系，便于后续维护和扩展：


# 定义性别字段的映射字典
gender_map = {
    'M': 'Male',
    'F': 'Female',
    '0': 'Male',
    '1': 'Female'
}

该代码将多种原始编码（如'M/F'、'0/1'）统一映射为标准化字符串。键表示源数据取值，值为目标语义标签，适用于ETL流程中的数据清洗阶段。

批量映射应用示例

结合 pandas 对 DataFrame 批量应用映射规则：


import pandas as pd
df['gender_standard'] = df['gender_raw'].map(gender_map)

利用 .map() 方法高效转换整列数据，未匹配值将自动置为 NaN，便于后续排查异常值。

3.3 性能对比：相较于列表查找的提升

在数据检索场景中，传统线性列表查找的时间复杂度为 O(n)，随着数据量增长，性能瓶颈显著。而采用哈希表结构后，平均查找时间复杂度降至 O(1)，极大提升了响应效率。

典型查找性能对比

数据结构	平均查找时间	最坏情况
列表（List）	O(n)	O(n)
哈希表（Hash Table）	O(1)	O(n)

代码实现示例


// 列表查找
func findInList(arr []int, target int) bool {
    for _, v := range arr { // 遍历每个元素
        if v == target {
            return true
        }
    }
    return false
}

上述函数通过遍历实现查找，当目标元素位于末尾或不存在时，需扫描全部 n 个元素。相比之下，哈希表通过散列函数直接定位键值存储位置，避免了逐项比较，从而在大多数情况下实现常数时间查找，尤其适用于高频查询和大数据集场景。

第四章：借助集合（set）的高效去重技巧

4.1 理论基础：集合的唯一性与查询效率

在数据结构设计中，集合（Set）的核心特性是元素的唯一性，这一属性通过哈希表或平衡树实现，显著提升了去重和成员查询的效率。

唯一性保障机制

集合在插入元素时自动判断是否存在重复值。以 Go 语言为例：


set := make(map[string]struct{})
if _, exists := set["key"]; !exists {
    set["key"] = struct{}{}
}

上述代码利用空结构体 struct{}{} 节省内存，键的存在性检查时间复杂度为 O(1)，确保高效去重。

查询性能对比

不同数据结构的查询效率如下表所示：

数据结构	平均查询时间	空间开销
切片（Slice）	O(n)	低
集合（Set）	O(1)	中

该特性使集合广泛应用于缓存、索引构建等高并发场景。

4.2 实践演示：边遍历边维护已见元素

在处理数组或链表去重、查找重复元素等场景时，边遍历边维护已见元素是一种高效策略。通过哈希集合记录已访问值，可实现线性时间复杂度。

核心思路

使用一个辅助数据结构（如哈希表）在遍历过程中动态记录已出现的元素，从而避免重复处理。

func findDuplicates(nums []int) []int {
    seen := make(map[int]bool)
    var duplicates []int
    for _, num := range nums {
        if seen[num] {
            duplicates = append(duplicates, num)
        } else {
            seen[num] = true
        }
    }
    return duplicates
}

上述代码中，seen 映射用于追踪已遍历元素。若当前值已存在，则加入结果集。该方法时间复杂度为 O(n)，空间复杂度为 O(n)，适用于大规模数据去重判断。

4.3 性能优势：O(1)平均查找时间的应用

哈希表凭借其O(1)的平均查找时间，在高性能系统中扮演着关键角色。这一特性使其在缓存、数据库索引和集合去重等场景中表现卓越。

典型应用场景

缓存系统（如Redis）利用哈希结构实现快速键值查询
编译器符号表使用哈希表存储变量名与地址映射
集合操作（如去重）依赖哈希集合的唯一性保障

代码示例：简易哈希映射实现

type HashMap struct {
    data []list.List
    size int
}

func (m *HashMap) Put(key string, value interface{}) {
    index := hash(key) % m.size
    bucket := &m.data[index]
    for e := bucket.Front(); e != nil; e = e.Next() {
        if e.Value.(Entry).key == key {
            e.Value = Entry{key, value}
            return
        }
    }
    bucket.PushBack(Entry{key, value})
}

上述Go语言片段展示了一个基础哈希映射的插入逻辑。通过取模运算定位桶位置，链表处理冲突。hash(key)为哈希函数输出，确保均匀分布，从而维持O(1)的平均访问效率。

4.4 局限性分析：仅适用于不可变元素类型

在并发编程中，某些同步机制依赖于元素的不可变性来保证线程安全。若元素类型为可变，则可能导致状态不一致。

不可变性的核心作用

不可变对象一旦创建，其状态无法更改，天然避免了多线程竞争。例如，在 Go 中定义不可变结构体：

type Point struct {
    X, Y int
}
// 实例化后字段不可变，适合并发读取

该结构体无 setter 方法，确保共享时不被修改。

可变类型的潜在风险

共享可变对象可能导致竞态条件
即使使用锁保护，复杂操作仍易出错
缓存一致性难以维护

适用场景对比

类型	线程安全	适用性
不可变	是	高
可变	否	低

第五章：第5种方法揭秘——最高效的有序去重方案

核心思路与数据结构选择

在处理大规模有序数据流时，传统去重方法往往面临内存占用高或时间复杂度劣化的问题。本方案采用“双指针 + 增量写入”策略，在原数组上进行就地操作，避免额外空间开销。

维护一个写指针（writeIndex），指向下一个不重复元素的存储位置
遍历数组的读指针（readIndex）与前一元素比较，跳过重复值
仅当当前元素与前一元素不同时，将其写入 writeIndex 位置并递增

实战代码实现（Go语言）


// orderedDeduplicate 对已排序切片进行高效去重，返回去重后长度
func orderedDeduplicate(nums []int) int {
    if len(nums) == 0 {
        return 0
    }
    writeIndex := 1 // 第一个元素无需比较
    for readIndex := 1; readIndex < len(nums); readIndex++ {
        // 只有当前元素不同于前一个时才保留
        if nums[readIndex] != nums[readIndex-1] {
            nums[writeIndex] = nums[readIndex]
            writeIndex++
        }
    }
    return writeIndex // 新长度
}