深入解析write-a-hash-table项目：哈希表动态扩容机制-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00040/article/details/148549845

深入解析write-a-hash-table项目：哈希表动态扩容机制

write-a-hash-table 项目地址: https://gitcode.com/gh_mirrors/wr/write-a-hash-table

哈希表作为一种高效的数据结构，其性能很大程度上取决于如何解决哈希冲突问题。本文将深入探讨write-a-hash-table项目中实现的一个关键特性——哈希表的动态扩容机制，这是保证哈希表高效运行的核心技术之一。

为什么需要动态扩容？

在基础实现中，哈希表通常使用固定大小的数组来存储数据。这种设计存在两个明显缺陷：

性能下降问题：随着元素不断插入，哈希冲突的概率会显著增加，导致查询、插入等操作的时间复杂度从理想的O(1)退化为O(n)
容量限制问题：固定大小的数组无法适应数据量的变化，当元素数量超过数组容量时，插入操作将失败

负载因子与扩容策略

write-a-hash-table项目采用了基于负载因子(load factor)的动态扩容策略：

负载因子 = 已使用桶数量 / 总桶数量
扩容阈值：当负载因子 > 0.7时扩容
缩容阈值：当负载因子 < 0.1时缩容

这种策略确保了哈希表始终在最佳性能区间运行。0.7的扩容阈值是一个经验值，在内存使用率和性能之间取得了良好平衡。

扩容实现细节

1. 素数大小的选择

扩容时，新哈希表的大小不是简单地倍增或减半，而是选择最接近的素数：

扩容：新大小为大于当前基础大小2倍的第一个素数
缩容：新大小为大于当前基础大小1/2的第一个素数

使用素数作为哈希表大小可以更均匀地分布键值对，减少哈希冲突。

项目中使用了一个高效的素数判断算法：

int is_prime(const int x) {
    if (x < 2) return -1;
    if (x < 4) return 1;    // 2和3是素数
    if (x % 2 == 0) return 0; // 排除偶数
    
    // 只需检查到平方根即可
    for (int i = 3; i <= floor(sqrt((double)x)); i += 2) {
        if (x % i == 0) return 0;
    }
    return 1;
}

2. 扩容过程

扩容操作的核心步骤如下：

创建新大小的哈希表
遍历旧表，将所有有效项重新哈希到新表
交换新旧表的属性
删除旧表

这种实现方式保证了扩容过程的原子性，不会影响哈希表的正常使用。

static void ht_resize(ht_hash_table* ht, const int base_size) {
    if (base_size < HT_INITIAL_BASE_SIZE) return;
    
    ht_hash_table* new_ht = ht_new_sized(base_size);
    for (int i = 0; i < ht->size; i++) {
        ht_item* item = ht->items[i];
        if (item != NULL && item != &HT_DELETED_ITEM) {
            ht_insert(new_ht, item->key, item->value);
        }
    }
    
    // 交换属性
    ht->base_size = new_ht->base_size;
    ht->count = new_ht->count;
    
    const int tmp_size = ht->size;
    ht->size = new_ht->size;
    new_ht->size = tmp_size;
    
    ht_item** tmp_items = ht->items;
    ht->items = new_ht->items;
    new_ht->items = tmp_items;
    
    ht_del_hash_table(new_ht);
}

3. 触发机制

扩容和缩容操作在插入和删除时自动触发：

void ht_insert(ht_hash_table* ht, const char* key, const char* value) {
    const int load = ht->count * 100 / ht->size;
    if (load > 70) ht_resize_up(ht);
    // ... 插入逻辑
}

void ht_delete(ht_hash_table* ht, const char* key) {
    const int load = ht->count * 100 / ht->size;
    if (load < 10) ht_resize_down(ht);
    // ... 删除逻辑
}

为了避免浮点运算，项目中使用整数运算(乘以100)来判断负载因子是否超过阈值。