C++ STL 集合：构建高效的数据管理工具_c++有没有集合-优快云博客

本文链接：https://blog.youkuaiyun.com/LVZL803/article/details/145579455

在优快云中，我算是小白一个，请多多指教。

引言

在现代编程中，数据管理和操作是软件开发的核心任务之一。C++ 作为一门强大且灵活的编程语言，提供了丰富的工具来帮助开发者高效地处理数据。特别是 C++ 标准模板库（STL）中的集合（Set）组件，为数据的存储、检索和操作带来了极大的便利。本文将深入探讨 C++ STL 中的集合类容器，包括 set、multiset、unordered_set 和 unordered_multiset，并结合实际案例展示它们的应用场景和优势。集合的基本概念集合是一种不包含重复元素的数据结构，通常用于表示一组互不相同的对象。在 C++ STL 中，集合类容器主要分为有序集合和无序集合两大类：

1.有序集合：

•set：每个元素都是唯一的，并且按照严格的弱排序规则进行排列。

•multiset：允许存在重复元素，同样按照严格的弱排序规则进行排列。

2.无序集合：

•unordered_set：每个元素都是唯一的，但不保证元素的顺序。

•unordered_multiset：允许存在重复元素，也不保证元素的顺序。

这些集合类容器具有以下特点：

•自动维护元素的唯一性：对于 set 和 unordered_set，插入相同元素时会自动忽略。

•高效的查找和插入操作：通过内部实现（如红黑树或哈希表），集合类容器提供了接近常数时间复杂度的操作。

•灵活性：支持自定义比较函数和哈希函数，以满足特定需求。

有序集合（Set）Set 的实现原理set 是基于红黑树（Red-Black Tree）实现的有序集合。红黑树是一种自平衡二叉搜索树，能够在插入、删除和查找操作中保持 O(log n) 的时间复杂度。因此，set 适合用于需要频繁进行排序和查找操作的场景。常用操作

•插入元素：使用 insert 方法向集合中添加新元素。如果元素已存在，则不会重复插入。

•查找元素：使用 find 方法查找指定元素。返回指向该元素的迭代器，若未找到则返回 end()。

•删除元素：使用 erase 方法删除指定元素。可以通过迭代器或键值删除。

•遍历元素：可以使用迭代器遍历集合中的所有元素，或者使用范围 for 循环简化代码。

#include <iostream>
#include <set>

int main() {
    // 创建一个 set 容器
    std::set<int> mySet;
    
    // 插入元素
    mySet.insert(10);
    mySet.insert(20);
    mySet.insert(30);
    
    // 查找元素
    auto it = mySet.find(20);
    if (it != mySet.end()) {
        std::cout << "找到元素: " << *it << std::endl;
    }
    
    // 删除元素
    mySet.erase(20);
    
    // 遍历元素
    for (const auto& elem : mySet) {
        std::cout << elem << " ";
    }
    std::cout << std::endl;
    
    return 0;
}

cpp

应用场景

•去重操作：当需要去除重复元素时，可以直接将数据插入到 set 中，利用其自动去重的功能。

•有序存储：对于需要保持元素有序性的场景，如排名列表、时间轴等，set 提供了高效的解决方案。

•快速查找：在需要频繁查找特定元素的场景下，set 的对数时间复杂度使得它成为理想选择。

无序集合（Unordered Set）Unordered Set 的实现原理unordered_set 是基于哈希表（Hash Table）实现的无序集合。哈希表通过哈希函数将元素映射到不同的桶中，从而实现了近似常数时间复杂度的查找、插入和删除操作。因此，unordered_set 适合用于需要快速访问元素且不需要保持顺序的场景。常用操作

•插入元素：使用 insert 方法向集合中添加新元素。如果元素已存在，则不会重复插入。

•查找元素：使用 find 方法查找指定元素。返回指向该元素的迭代器，若未找到则返回 end()。

•删除元素：使用 erase 方法删除指定元素。可以通过迭代器或键值删除。

•遍历元素：可以使用迭代器遍历集合中的所有元素，或者使用范围 for 循环简化代码。

#include <iostream>
#include <unordered_set>

int main() {
    // 创建一个 unordered_set 容器
    std::unordered_set<int> myUnorderedSet;
    
    // 插入元素
    myUnorderedSet.insert(10);
    myUnorderedSet.insert(20);
    myUnorderedSet.insert(30);
    
    // 查找元素
    auto it = myUnorderedSet.find(20);
    if (it != myUnorderedSet.end()) {
        std::cout << "找到元素: " << *it << std::endl;
    }
    
    // 删除元素
    myUnorderedSet.erase(20);
    
    // 遍历元素
    for (const auto& elem : myUnorderedSet) {
        std::cout << elem << " ";
    }
    std::cout << std::endl;
    
    return 0;
}

cpp

应用场景

•快速查找：在需要频繁查找特定元素且不需要保持顺序的场景下，unordered_set 提供了极高的效率。

•散列索引：对于需要构建散列索引的场景，如数据库查询优化、缓存设计等，unordered_set 是理想的工具。

•性能敏感应用：在对性能要求较高的场景下，如实时系统、嵌入式开发等，unordered_set 的常数时间复杂度使得它成为首选。

多重集合（Multiset）Multiset 的实现原理multiset 和 unordered_multiset 分别是 set 和 unordered_set 的多重版本，允许存在重复元素。它们的底层实现与对应的单例版本相同，分别基于红黑树和哈希表。常用操作

•插入元素：使用 insert 方法向集合中添加新元素，即使元素已存在也会插入。

•查找元素：使用 find 方法查找指定元素。返回指向该元素的迭代器，若未找到则返回 end()。

•删除元素：使用 erase 方法删除指定元素。可以通过迭代器或键值删除，也可以删除所有匹配的元素。

•遍历元素：可以使用迭代器遍历集合中的所有元素，或者使用范围 for 循环简化代码。

#include <iostream>
#include <multiset>

int main() {
    // 创建一个 multiset 容器
    std::multiset<int> myMultiSet;
    
    // 插入元素
    myMultiSet.insert(10);
    myMultiSet.insert(20);
    myMultiSet.insert(20);
    myMultiSet.insert(30);
    
    // 查找元素
    auto range = myMultiSet.equal_range(20);
    for (auto it = range.first; it != range.second; ++it) {
        std::cout << "找到元素: " << *it << std::endl;
    }
    
    // 删除元素
    myMultiSet.erase(20);
    
    // 遍历元素
    for (const auto& elem : myMultiSet) {
        std::cout << elem << " ";
    }
    std::cout << std::endl;
    
    return 0;
}

cpp

应用场景

•统计分析：在需要统计某个元素出现次数的场景下，multiset 提供了便捷的方法。

•多值映射：对于需要建立一对多关系的场景，如标签系统、分类目录等，multiset 可以有效地管理多值映射关系。

•历史记录：在需要保存历史记录并允许重复的场景下，multiset 提供了合适的解决方案。

实战示例为了更好地理解 C++ STL 集合类容器的应用，我们来看一个具体的例子：实现一个简单的词频统计程序。该程序读取一段文本，统计每个单词出现的频率，并输出结果。

升级现有词频统计程序

为了进一步增强我们的词频统计程序，我们可以引入 unordered_map 和 unordered_set 来提升性能。此外，我们还可以通过多线程技术来加速处理大规模文本文件。以下是改进后的代码示例：

#include <iostream>
#include <fstream>
#include <sstream>
#include <string>
#include <unordered_map>
#include <unordered_set>
#include <thread>
#include <vector>

// 多线程处理函数
void processChunk(const std::string& chunk, std::unordered_map<std::string, int>& wordCounts) {
    std::istringstream iss(chunk);
    std::string word;
    while (iss >> word) {
        // 简单的预处理：将所有字母转换为小写
        std::transform(word.begin(), word.end(), word.begin(), ::tolower);
        // 去除非字母字符
        word.erase(std::remove_if(word.begin(), word.end(), [](char c) { return !std::isalpha(c); }), word.end());
        if (!word.empty()) {
            ++wordCounts[word];
        }
    }
}

int main() {
    std::ifstream file("sample.txt");
    std::stringstream buffer;
    buffer << file.rdbuf();
    std::string content = buffer.str();

    // 划分文本块
    const size_t chunkSize = 1024 * 1024; // 每个线程处理1MB的数据
    std::vector<std::string> chunks;
    for (size_t i = 0; i < content.size(); i += chunkSize) {
        size_t end = std::min(i + chunkSize, content.size());
        chunks.push_back(content.substr(i, end - i));
    }

    // 创建多个线程并行处理
    std::vector<std::thread> threads;
    std::vector<std::unordered_map<std::string, int>> localWordCounts(chunks.size());

    for (size_t i = 0; i < chunks.size(); ++i) {
        threads.emplace_back(processChunk, chunks[i], std::ref(localWordCounts[i]));
    }

    // 等待所有线程完成
    for (auto& t : threads) {
        if (t.joinable()) {
            t.join();
        }
    }

    // 合并结果
    std::unordered_map<std::string, int> globalWordCounts;
    for (const auto& localCounts : localWordCounts) {
        for (const auto& pair : localCounts) {
            globalWordCounts[pair.first] += pair.second;
        }
    }

    // 输出结果
    for (const auto& pair : globalWordCounts) {
        std::cout << pair.first << ": " << pair.second << std::endl;
    }

    return 0;
}

cpp

这段代码展示了如何利用 unordered_map 和 unordered_set 提高词频统计程序的效率，并通过多线程技术加速处理大规模文本文件。研究资料C++ STL 集合类容器的研究资料

官方文档

•C++ 参考手册

•C++ 标准模板库（STL）指南

书籍推荐

•Effective STL by Scott Meyers: 这本书详细介绍了 C++ STL 的最佳实践和高级用法。

•The C++ Programming Language by Bjarne Stroustrup: C++ 的创始人亲自撰写的权威指南，涵盖 STL 的各个方面。

3.在线教程

•GeeksforGeeks STL 教程

•Codecademy C++ 课程

学术论文