Python基础语法：set集合详解

拾忆4377

于 2025-03-21 17:12:18 发布

阅读量617

点赞数 16

分类专栏： Python入门到精通文章标签： python 开发语言

本文链接：https://blog.youkuaiyun.com/qq_40998698/article/details/146423965

版权

Python入门到精通专栏收录该内容

14 篇文章

订阅专栏

集合（set）是Python中用于存储唯一、无序元素的高效数据结构，基于哈希表实现，擅长执行成员检测和数学集合运算。本文将深入解析集合的核心特性和应用场景。

一、集合基础

1.1 集合定义

集合使用花括号{}或set()创建，元素不可重复且无序：

empty_set = set()     # 空集合（不能用{}）
numbers = {1, 2, 3}  # 整型集合
mixed = {"Python", 3.14, True}  # 混合类型集合

1.2 不可变集合（frozenset）

frozen = frozenset([1, 2, 3])  # 不可修改
dict_key = {frozen: "value"}   # 可作为字典键

1.3 集合构造器

chars = set("hello")  # {'h', 'e', 'l', 'o'}（自动去重）
nums = set(range(5))  # {0, 1, 2, 3, 4}

二、核心特性

特性	说明
唯一性	自动去除重复元素
无序性	元素存储顺序与添加顺序无关
可变性	常规集合可增删元素
唯一性	自动去除重复元素
元素要求	元素必须为可哈希类型（不可变类型
查找效率	成员检测时间复杂度O(1)

三、基本操作

3.1 元素操作

s = {1, 2, 3}
s.add(4)        # {1,2,3,4}
s.remove(2)     # {1,3,4}（元素不存在时报错）
s.discard(5)    # 安全删除（元素不存在不报错）
s.pop()         # 随机移除一个元素

3.2 集合运算

A = {1, 2, 3}
B = {3, 4, 5}

print(A | B)  # 并集 {1,2,3,4,5} 
print(A & B)  # 交集 {3}
print(A - B)  # 差集 {1,2}
print(A ^ B)  # 对称差集 {1,2,4,5}

3.3 关系判断

print(A <= B)   # 子集判断 False
print(A.isdisjoint(B))  # 是否无交集 False

四、常用方法

方法	说明	示例
update()	合并多个集合/可迭代对象	s.update([4,5], {6})
intersection_update()	保留与其他集合的交集	A.intersection_update(B)
difference_update()	移除与其他集合的交集元素	A.difference_update(B)
symmetric_difference_update()	更新为对称差集	A.symmetric_difference_update(B)
copy()	浅拷贝集合	new_set = s.copy()

五、性能分析

5.1 成员检测效率

# 对比列表与集合的in操作
lst = list(range(1000000))
s = set(lst)

%timeit 999999 in lst   # 约55 ms（列表：线性扫描）
%timeit 999999 in s     # 约80 ns（集合：哈希查找）

5.2 去重效率

# 列表去重对比
duplicates = [1,2,2,3,3,3]

# 传统方法
unique = []
for x in duplicates:
    if x not in unique:
        unique.append(x)  # O(n²)时间复杂度

# 集合转换法
unique = list(set(duplicates))  # O(n)时间复杂度（可能改变顺序）

六、使用场景

6.1 数据去重

# 日志IP去重
ips = ["192.168.1.1", "10.0.0.1", "192.168.1.1"]
unique_ips = set(ips)  # {'192.168.1.1', '10.0.0.1'}

6.2 关系运算

# 用户关注系统
user_a_follows = {"userB", "userC"}
user_b_follows = {"userC", "userD"}

common = user_a_follows & user_b_follows  # 共同关注
recommend = user_b_follows - user_a_follows  # 推荐关注

6.3 黑名单过滤

# 高效敏感词检测
blacklist = {"spam", "fraud", "scam"}
content = "This is a spam message"

if blacklist & set(content.split()):
    print("包含敏感词")

七、注意事项

7.1 元素类型限制

valid = {1, "text", (1,2)}  # 合法元素
invalid = {[1,2], {"a":1}}  # TypeError: unhashable type

7.2 顺序丢失问题

# 集合转列表时顺序不可控
nums = {3,1,2}
lst = list(nums)  # 可能是[1,2,3]或其他顺序

7.3 空集合陷阱

empty = {}        # 这是字典！
correct_empty = set()  # 正确空集合

八、与其他结构的对比

特性	列表（list）	集合（set）	字典（dict）
元素唯一性	允许重复	唯一	键唯一，值可重复
顺序性	有序	无序	插入顺序（Python 3.7+）
索引方式	数字索引	不支持索引	键索引
查找速度	O(n)	O(1)	O(1)
内存占用	较低	较高（存储哈希表）	最高
典型用途	有序数据序列	去重/集合运算	键值对映射

集合作为Python的高效哈希容器，在处理去重任务、执行集合运算和快速成员检测方面表现卓越。其独特的无序存储机制与哈希查找特性，使其在大数据处理场景中具有显著性能优势。开发者在实际使用中需注意元素的可哈希性要求，合理选择集合与其他数据结构的组合应用，可以大幅提升代码效率和可读性。对于需要保持插入顺序的场景，可考虑使用collections.OrderedDict或Python 3.7+的字典特性实现类似功能。