C++ 容器进阶：unordered_map 与 unordered_set 全面解析

原创于 2025-10-12 14:42:05 发布 · 677 阅读

CC 4.0 BY-SA版权

文章标签：

在 C++ STL 容器家族中，set/map 是我们常用的有序容器，但在追求更高性能的场景下，unordered_set/unordered_map 往往是更优选择。本文将以哈希表底层实现为核心，对比分析 unordered 系列容器与传统 set/map 的差异，结合代码示例讲解其使用要点，帮助开发者在实际项目中精准选型。

一、unordered_set 系列容器基础

unordered_set 是基于哈希表实现的无序容器，核心特性是 “去重 + 无序”，与基于红黑树实现的 set 形成鲜明对比。要理解其设计逻辑，首先需要掌握类模板的核心参数与底层要求。

1.1 类模板声明与核心参数

unordered_set 的模板定义如下（关键参数已标注说明）：

template < 
    class Key,                     // 存储的关键字类型（value_type 与 key_type 一致）
    class Hash = hash<Key>,        // 哈希函数仿函数（默认支持内置类型转整形）
    class Pred = equal_to<Key>,    // 相等比较仿函数（默认支持 == 运算）
    class Alloc = allocator<Key>   // 空间配置器（默认使用系统配置器）
> class unordered_set;

关键注意点：

默认情况下，仅需指定 Key 类型（如 unordered_set<int>），后三个参数无需手动设置；

若存储自定义类型（如自定义结构体），需手动实现 Hash 仿函数（将自定义类型转为整形）和 Pred 仿函数（实现相等比较）；

内存管理依赖空间配置器，如需优化内存分配（如高频创建销毁场景），可自定义内存池传入 Alloc 参数。

1.2 与 set 的核心差异（3 大维度对比）

unordered_set 与 set 功能高度相似（均支持去重、增删查），但底层实现决定了两者在使用上的关键差异，具体可从以下三方面对比：

对比维度	set（红黑树实现）	unordered_set（哈希表实现）
Key 要求	需支持小于比较（`<` 运算符）	需支持 “转整形”+“相等比较”（`==` 运算符）
迭代器特性	双向迭代器（支持 `++`/`--`）	单向迭代器（仅支持 `++`）
遍历顺序	中序遍历有序（按 Key 升序）	无序（按哈希桶存储顺序）
时间复杂度	增删查改均为 O(log N)	平均 O(1)，最坏 O(N)（哈希冲突严重时）

代码验证：通过 100 万条数据插入、查找、删除的耗时对比，直观感受性能差异：

#include <unordered_set>
#include <set>
#include <vector>
#include <iostream>
#include <ctime>
using namespace std;

int test_set_performance() {
    const size_t N = 1000000;
    unordered_set<int> us;
    set<int> s;
    vector<int> v;
    v.reserve(N);

    // 生成测试数据（无重复、有序）
    srand(time(0));
    for (size_t i = 0; i < N; ++i) {
        v.push_back(i); 
    }

    // 1. 插入性能对比
    size_t begin1 = clock();
    for (auto e : v) s.insert(e);
    size_t end1 = clock();
    cout << "set insert: " << end1 - begin1 << "ms" << endl;

    size_t begin2 = clock();
    us.reserve(N); // 预分配哈希桶空间（减少扩容开销）
    for (auto e : v) us.insert(e);
    size_t end2 = clock();
    cout << "unordered_set insert: " << end2 - begin2 << "ms" << endl;

    // 2. 查找性能对比
    int count1 = 0;
    size_t begin3 = clock();
    for (auto e : v) {
        if (s.find(e) != s.end()) ++count1;
    }
    size_t end3 = clock();
    cout << "set find: " << end3 - begin3 << "ms (匹配次数: " << count1 << ")" << endl;

    int count2 = 0;
    size_t begin4 = clock();
    for (auto e : v) {
        if (us.find(e) != us.end()) ++count2;
    }
    size_t end4 = clock();
    cout << "unordered_set find: " << end4 - begin4 << "ms (匹配次数: " << count2 << ")" << endl;

    // 3. 删除性能对比
    size_t begin5 = clock();
    for (auto e : v) s.erase(e);
    size_t end5 = clock();
    cout << "set erase: " << end5 - begin5 << "ms" << endl;

    size_t begin6 = clock();
    for (auto e : v) us.erase(e);
    size_t end6 = clock();
    cout << "unordered_set erase: " << end6 - begin6 << "ms" << endl;

    return 0;
}

int main() {
    test_set_performance();
    return 0;
}

测试结果分析：

插入操作：unordered_set 因预分配空间（reserve(N)）避免多次扩容，耗时通常仅为 set 的 1/3~1/5；

查找操作：unordered_set 平均 O(1) 效率优势明显，耗时约为 set 的 1/10；

删除操作：两者差异略小，但 unordered_set 仍领先 2~3 倍。

二、unordered_map 系列容器解析

unordered_map 与 map 的关系，等同于 unordered_set 与 set 的关系 —— 前者基于哈希表实现，后者基于红黑树实现。其核心差异集中在 Key 要求、迭代器特性与性能上。

2.1 与 map 的核心差异

unordered_map 存储的是 pair<Key, T> 键值对，支持通过 Key 快速访问 Value，与 map 的差异可参考下表：

对比维度	map（红黑树实现）	unordered_map（哈希表实现）
Key 要求	需支持 `<` 比较（用于红黑树排序）	需支持 “哈希转换”+“==” 比较
迭代器与顺序	双向迭代器，遍历按 Key 升序	单向迭代器，遍历无序
关键接口	支持 `lower_bound()`/`upper_bound()`（有序区间查询）	不支持区间查询（无序无法定位）
[] 运算符	均支持（通过 Key 访问 Value，不存在则插入默认值）	均支持（底层逻辑一致）
性能	增删查改 O(log N)	平均 O(1)，最坏 O(N)

注意：unordered_map 不支持 lower_bound() 和 upper_bound()，因为哈希表的无序性导致无法定位 “大于 / 小于 Key 的第一个元素”，若需区间查询，需优先选择 map。

2.2 常用接口示例

unordered_map 的核心接口（插入、查找、删除、[] 访问）与 map 完全一致，上手成本极低：

#include <unordered_map>
#include <iostream>
using namespace std;

int main() {
    unordered_map<string, int> um;

    // 1. 插入键值对（三种方式）
    um.insert(pair<string, int>("apple", 5));   // 用 pair 插入
    um.insert({"banana", 3});                   // 列表初始化（C++11+）
    um["cherry"] = 7;                           // [] 运算符（不存在则插入）

    // 2. 查找 Key
    auto it = um.find("banana");
    if (it != um.end()) {
        cout << "banana count: " << it->second << endl; // 输出：banana count: 3
    }

    // 3. 删除 Key
    um.erase("apple"); // 按 Key 删除
    cout << "after erase apple, size: " << um.size() << endl; // 输出：2

    // 4. 遍历（无序）
    for (auto& [key, val] : um) { // C++17 结构化绑定（更简洁）
        cout << key << ": " << val << " "; 
    }
    // 可能输出：cherry:7 banana:3 （顺序不固定）

    return 0;
}

三、支持 Key 冗余的 unordered_multiset/unordered_multimap

在实际开发中，若需要存储重复 Key（如统计单词出现次数、存储多个相同 ID 的数据），则需要使用 unordered_multiset 和 unordered_multimap，它们与 multiset/multimap 的差异同样体现在底层实现上。

3.1 核心特性

支持 Key 冗余：允许插入多个相同 Key 的元素（unordered_set/map 会去重）；

底层与性能：基于哈希表实现，增删查平均效率 O(1)，远超基于红黑树的 multiset/multimap（O(log N)）；

迭代器：仍为单向迭代器，遍历无序；

接口差异：unordered_multimap 不支持 [] 运算符（因多个相同 Key 无法确定返回哪个 Value），其他接口与 unordered_map 一致。

3.2 使用示例（unordered_multimap）

#include <unordered_map>
#include <iostream>
#include <vector>
using namespace std;

int main() {
    // 存储学生姓名与成绩（允许同一学生多次考试）
    unordered_multimap<string, int> umm;
    umm.insert({"Alice", 85});
    umm.insert({"Alice", 92});
    umm.insert({"Bob", 78});

    // 查找 Alice 的所有成绩（equal_range 返回迭代器对）
    auto range = umm.equal_range("Alice");
    cout << "Alice's scores: ";
    for (auto it = range.first; it != range.second; ++it) {
        cout << it->second << " "; // 输出：85 92
    }

    return 0;
}

四、哈希相关接口与底层优化

unordered 系列容器提供了一组与哈希表底层相关的接口，主要用于调整哈希桶数量和负载因子，优化性能。日常开发中无需频繁使用，但理解其原理有助于排查性能问题。

4.1 核心哈希接口

接口名	功能说明
`size_t bucket_count()`	返回当前哈希桶的总数
`size_t bucket(const Key& k)`	返回 Key 所在的哈希桶编号
`float load_factor()`	返回当前负载因子（元素个数 / 桶数量）
`float max_load_factor()`	返回 / 设置最大负载因子（默认约 1.0）
`void rehash(size_t n)`	强制将桶数量调整为不小于 n 的最小质数
`void reserve(size_t n)`	预分配足够的桶，确保能存储 n 个元素且不触发扩容

4.2 优化建议

预分配空间：插入大量数据前调用 reserve(N)，避免哈希表多次扩容（扩容会重新计算所有元素的哈希值，耗时较高）；

调整负载因子：若哈希冲突频繁（如自定义哈希函数较差），可降低 max_load_factor()（如设为 0.7），通过增加桶数量减少冲突；

自定义哈希函数：对于自定义类型，需确保哈希函数的 “均匀性”，避免大量元素映射到同一桶（导致时间复杂度退化到 O(N)）。

五、容器选型指南

在实际项目中，unordered 系列与传统 set/map 的选型需结合业务场景，核心参考以下原则：

业务需求	优先选择	原因
需有序遍历 / 区间查询（如按 Key 排序、找中位数）	set/map	红黑树的有序性满足需求，支持 `lower_bound()` 等接口
仅需增删查改，追求极致性能	unordered_set/unordered_map	平均 O(1) 效率，远超 O(log N)
需存储重复 Key	unordered_multiset/unordered_multimap	哈希表实现，性能优于 multiset/multimap
自定义类型且难以实现哈希函数	set/map	仅需实现 `<` 运算符，复杂度低于自定义哈希函数
内存敏感场景	set/map	哈希表需额外存储桶结构，内存开销略高