Hash Table的补充

本文探讨了哈希表的实现方式,对比了开放式寻址与链地址法解决哈希冲突的效果,并讨论了哈希函数的设计原则及质数表大小的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

      上一篇文章已经说了Hash Table作为一个数组以开放式寻址的方式实现 ,用开放式寻址去解决Key的冲突比较麻烦,不管是用线性探针,二次方探针,即便是二次Hash也还是有缺陷,一旦数组变的比较满的时候,算法的效率就会大打折扣,而且用开放式寻址就不能真正意义上的去删除一个数据项,如果删除一个数据项,以后的搜索某个数据就会发生错误。

      用Linked List来代替数组中的元素就可以比较好的解决Key冲突的问题,而为此付出的代价仅仅是代码复杂一点,要在数组的基础上实现Linked List。但是得到的好处却是非同凡响的。

     用Linked List来实现Hash Table的代码就不在赘述了,虽然比Open Addressing要复杂,但是也不难,相对与Binary Tree来说,还是要简单点的。

     下面再来说下Hash Function,为什么要用Hash Function,最根本的目的当然是为了搜索起来更加的节省时间,所以Hash Function的算法不能复杂,越简单越好,多用些位操作则更好,比如将2进制数右移一位以达到除以2的目的。一个所谓的完美的Hash Function可以将每一个Key随机的映射到不同的位置上,这种情况只有在Key很好的分布,以及范围足够的小,可以直接作为Index.当然这种情况很少见,就算出现了也会直接用数组,何必去用Hash Table呢!用Hash Table大多都是要把比较大的Key压缩到一个相对容量较小的数组中。总的来说一个好的Hash Function要做到简单,快速,排除Key的非有用数据部分,包括Key的所有有用的数据部分。

    还有就是Table Size最好是质数,Table Size是质数在二次方探针和二次Hash中很重要,但是在其他的搜索方式中也最好用质数,因为有的时候Key并不是一个随机的数,比如,有一串Key,他们都是50的倍数,如果Table Size是50,那么所有的数都会被Hash到同一个地方,导致了聚合严重。在这种情况下用53最为数组的大小就不会导致聚合情况的严重了。

   如果探讨到Hash Table的效率,在大多数的情况下用Linked List实现的Hash Table效率要好点,因为不会像开放式寻址那样去不断的寻找特定的Cell,而是只要在特定的Linked List里面去寻找。当然对于很小的Hash Table,用开放式寻址的线性探针是个不错的选择,因为他的编码简单!

<think>好的,我现在需要解决用户提到的“hash未定义”的问题。这个问题出现在之前的代码中,用户指出在process_input函数中调用了hash函数,但代码里并没有定义这个函数。这说明原来的代码中存在一个缺失的部分,需要补上哈希函数的实现。首先,我应该回顾之前的代码结构,确认哪里使用了hash函数。在process_input函数中,当处理bigram时,使用了unsignedint h= hash(prev_word);来获取哈希值,用于存储和查找bigram节点。但原代码中没有提供hash函数的实现,导致编译错误。接下来,我需要设计一个合适的哈希函数。哈希函数的目标是将字符串转换为一个固定范围的整数值,通常使用哈希表的长度取模。常见的字符串哈希函数有BKDR、FNV等。考虑到效率和冲突率,选择一个简单且有效的哈希算法。比如,BKDR哈希算法是一个常用的选择,它通过遍历字符串的每个字符,乘以一个素数(如31或131),然后累加。这样可以生成一个较好的分布。此外,需要确保哈希值在哈希表的大小范围内,这里BIGRAM_TABLE_SIZE被定义为1000,所以需要对结果取模。 然后,我需要将这个哈希函数添加到代码中。在全局函数声明部分,添加哈希函数的原型,然后在实现部分定义该函数。同时,确保哈希函数对大小写不敏感,或者在处理字符串时统一转换为小写,但根据之前的代码逻辑,可能已经将单词转换为小写存储,所以哈希函数可以直接处理小写字符串。另外,需要检查代码中所有使用哈希函数的地方是否正确处理了字符串的大小写。例如,在存储bigram时,prev_word已经被转换为小写,所以哈希函数可以直接处理,无需再进行转换。最后,测试哈希函数是否能够有效减少冲突,并确保bigram_table的链式结构能够正确处理冲突情况。可能需要调整哈希表的大小或哈希算法的参数,以优化性能。总结步骤:1.在代码中添加哈希函数的声明和定义。2.使用BKDR或其他合适的哈希算法。 3.确保哈希函数处理的是小写字符串,或与存储方式一致。 4.测试哈希函数是否正常工作,避免过多的冲突。</think>在C代码中需要补充哈希函数实现。以下是修正方案: ```c // 添加哈希函数声明 unsigned int hash(const char *str); // 实现BKDR哈希函数 unsigned int hash(const char *str) { unsigned int seed = 131; // 31 131 1313 13131 131313 etc.. unsigned int hash = 0; while (*str) { hash = hash * seed + (unsigned char)tolower(*str++); } return hash % BIGRAM_TABLE_SIZE; } ``` 代码说明: 1. **哈希算法选择**:使用BKDR哈希算法,具有较好的字符串分布特性 2. **大小写处理**:统一转换为小写保证"Data"和"data"得到相同哈希值 3. **模运算**:将哈希值限制在哈希表大小范围内 需要将上述函数添加到全局函数声明部分,并放在process_input函数之前。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值