Hash Table的补充

最新推荐文章于 2024-12-10 15:41:32 发布

zxy119

最新推荐文章于 2024-12-10 15:41:32 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

分类专栏：数据结构(Datastructure) 文章标签： table function list 算法 tree

本文链接：https://blog.youkuaiyun.com/zxy119/article/details/1204799

数据结构(Datastructure) 专栏收录该内容

8 篇文章

订阅专栏

本文探讨了哈希表的实现方式，对比了开放式寻址与链地址法解决哈希冲突的效果，并讨论了哈希函数的设计原则及质数表大小的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

上一篇文章已经说了Hash Table作为一个数组以开放式寻址的方式实现，用开放式寻址去解决Key的冲突比较麻烦，不管是用线性探针，二次方探针，即便是二次Hash也还是有缺陷，一旦数组变的比较满的时候，算法的效率就会大打折扣，而且用开放式寻址就不能真正意义上的去删除一个数据项，如果删除一个数据项，以后的搜索某个数据就会发生错误。

用Linked List来代替数组中的元素就可以比较好的解决Key冲突的问题，而为此付出的代价仅仅是代码复杂一点，要在数组的基础上实现Linked List。但是得到的好处却是非同凡响的。

用Linked List来实现Hash Table的代码就不在赘述了，虽然比Open Addressing要复杂，但是也不难，相对与Binary Tree来说，还是要简单点的。

下面再来说下Hash Function，为什么要用Hash Function，最根本的目的当然是为了搜索起来更加的节省时间，所以Hash Function的算法不能复杂，越简单越好，多用些位操作则更好，比如将2进制数右移一位以达到除以2的目的。一个所谓的完美的Hash Function可以将每一个Key随机的映射到不同的位置上，这种情况只有在Key很好的分布，以及范围足够的小，可以直接作为Index.当然这种情况很少见，就算出现了也会直接用数组，何必去用Hash Table呢！用Hash Table大多都是要把比较大的Key压缩到一个相对容量较小的数组中。总的来说一个好的Hash Function要做到简单，快速，排除Key的非有用数据部分，包括Key的所有有用的数据部分。

还有就是Table Size最好是质数，Table Size是质数在二次方探针和二次Hash中很重要，但是在其他的搜索方式中也最好用质数，因为有的时候Key并不是一个随机的数，比如，有一串Key，他们都是50的倍数，如果Table Size是50，那么所有的数都会被Hash到同一个地方，导致了聚合严重。在这种情况下用53最为数组的大小就不会导致聚合情况的严重了。

如果探讨到Hash Table的效率，在大多数的情况下用Linked List实现的Hash Table效率要好点，因为不会像开放式寻址那样去不断的寻找特定的Cell，而是只要在特定的Linked List里面去寻找。当然对于很小的Hash Table，用开放式寻址的线性探针是个不错的选择，因为他的编码简单！