C++的unordered_set和unordered_map

最新推荐文章于 2025-10-24 19:29:09 发布

转载最新推荐文章于 2025-10-24 19:29:09 发布 · 1.3k 阅读

4 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/qq_34243930/article/details/81456582

C/C++ 专栏收录该内容

14 篇文章

订阅专栏

本文探讨使用哈希表优化枚举算法，介绍C++ STL提供的unordered_set与unordered_map，对比set与map，强调其在查找、插入和删除操作中的时间复杂度优势。

今天是我们枚举与优化的第二节课。今后几节课我们会一起来讨论用哈希表来优化枚举，降低复杂度。我们在用程序解决问题时候，经常会碰到这样一类问题：“查找一个元素是否存在”，比如一个整数是不是在一个整数集合中。要解决这样的问题，哈希表是一个非常好用的工具。而且更方便的是，C++的STL已经帮我们把这些工具都实现好了，提供了非常方便的接口，我们直接用行了。下面我们就介绍一下这些工具。首先我们要介绍的就是unordered_set和unordered_map。

unordered_set可以把它想象成一个集合，它提供了几个函数让我们可以增删查：
unordered_set::insert
unordered_set::find
unordered_set::erase

这个unorder暗示着，这两个头文件中类的底层实现----Hash。也是因为如此，你才可以在声明这些unordered模版类的时候，传入一个自定义的哈希函数，准确的说是哈希函数子（hash function object）。

单向迭代器

哈希表的实现复杂了该容器上的双向遍历，似乎没有一种合适的方法能够做到高效快速。因此，unorder版本的map和set只提供前向迭代器（非unorder版本提供双向迭代器）。

首先要include这个unordered_set头文件。
然后就是第六行我们定义了一个整型int的集合，叫myset。
后面几行，我们演示了insert/find/erase的用法。
有两点需要注意：
一是这个容器是个集合，所以重复插入相同的值是没有效果的。大家可以看到我们这里第7行和第9行插入了2次3，实际上这个集合里也只有1个3，第10行输出的结果是2。
二是find的返回值是一个迭代器(iterator)，如果找到了会返回指向目标元素的迭代器，没找到会返回end()。

对于unordered_set，insert/find/erase的平均复杂度是O(1)，但是最坏复杂度是O(N)的，这里N是指容器中元素数量。

有两种情况会出现O(N)复杂度。
1是你的哈希函数太烂了，导致很多不同元素的哈希值都相同，全是碰撞，这种情况复杂度会变成O(N)。但是这种情况一般不用担心，因为对于string以及int double之类的基本数据类型，都有默认的哈希函数，而且默认的哈希函数足够好，不会退化到O(N)。如果是你自定义的哈希函数，那你要小心一点，别写的太差了。
2是如果insert很多数据，会触发rehash。就是整个哈希表重建。这个过程有点类似向vector里不断添加元素，vector会resize。比如你新建一个vector时，它可能只申请了一块最多保存10个元素的内存，当你插入第11个元素的时候，它会自动重新申请一块更大空间，比如能存下20个元素。哈希表也是类似，不过rehash不会频繁发生，均摊复杂度还是O(1)的，也不用太担心。

unordered_set是一个集合，有的时候我们需要一个字典，就是保存一系列key/value对，并且可以按key来查询。比如我们要保存很多同学的成绩，每位同学有一个学号，也有一个分数，我们想按学号迅速查到成绩。这时候我们就可以用unordered_map。

unordered_map同样也提供了增删查函数:
unordered_map::insert
unordered_map::find
unordered_map::erase
这三个函数的平均时间复杂度也是O(1)的。我们可以看一个例子：

首先我们看第2行，要用unordered_map你要先include相应的头文件。
在7行我们定义了一个mymap，它的key是string类型，字符串；value是整形。
第8第9行展示的insert插入，因为我们这里要插入的是一个key/value pair(键值对)，我们要用make_pair函数把一个字符串和一个整数打包成一个pair。
第10行是find查找，find返回的也是一个迭代器，iterator。这里我们懒得写很长的迭代器类型，直接用的auto。auto是c++11标准里的关键字，它会自动推断变量的类型。如果你的编译器不支持c++11，那你还是要老老实实写全:unordered_map<string, int>::iterator

迭代器指向的是一个pair，所以第11行我们可以用first和second去拿到对应的key和value，这里first是”c++”这个字符串，second是100这个整数。
第13第14行展示了一下erase删除。

值得一提的是，unordered_map重载了[]运算符，我们可以把key放在中括号里，像操作数组一样操作unordered_map：

上面这个程序的输出结果是101。大家可以看一下第8~第10行。我们把”c++”这个key放在中括号里就能直接操作”c++”对应的值。这种写法会让程序更直观。

上面我们介绍了unordered_set和unordered_map，它们都有insert/find/erase就是插入/查找/删除函数，时间复杂度都是O(1)。但是要用unordered_set和unordered_map需要编译器支持c++11标准。不支持c++11的话，编译会出错。那如果你面对的评测系统不支持c++11怎么办？那我们不得不退而求其次，用set和map代替。

set需要包含头文件<set>
set::insert
set::find
set::erase
map需要包含头文件<map>
map::insert
map::find
map::erase

set/map的用法和unordered_set/unordered_map的用法完全一样。所以之前我们的3个程序，把unordered_去掉，其他地方不用改，一样可以运行。

set/map不一样的地方是它们内部是用平衡树实现的。所以insert/find/erase操作时间复杂度都是O(logN)的。这里N指容器中有多少个元素。不过O(logN)这个复杂度已经很优秀了，大家可以算一下，如果N=1000000，就是说我这个集合里有100万个元素，logN的值只有20左右。所以它和O(1)也差不了太多。

当然，set和map因为内部实现是平衡树，所以会带来一些额外的好处。它可以用O(logN)的时间复杂度做到一些unordered_set和unordered_map做不到的操作。这个我们后面讲到平衡树再细说。在这几节课程里，我们就当它是不支持c++11时，需要用哈希表的替代方案。

tip:多了解一下set/map/unordered_set/unordered_map的用法，推荐大家一个网站叫cplusplus.com，reference里面有各种详细介绍。

回到本节一开始提到的一类问题：“查找一个元素是不是存在”。现在我们有4件工具来帮我们解决这个问题：
unordered_set O(1)
unordered_map O(1)
set O(logN)
map O(logN)