算法学习-哈希表应用

最新推荐文章于 2025-09-11 22:31:07 发布

原创最新推荐文章于 2025-09-11 22:31:07 发布 · 455 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #数据结构 #query #struct #汇编 #优化

01.数据结构专栏收录该内容

4 篇文章

订阅专栏

通过哈希表统计短信重复次数，利用不同算法（排序、部分排序、堆）寻找重复最少的前10条。哈希函数用于映射，结合数据节点结构解决查询效率问题。算法复杂度分析表明，使用堆数据结构可有效优化查找和移动元素的时间复杂度。

hash算法就是一种压缩映射，压缩到有链表头函数组成的固定长度数组中。上实际例子：
例1：100万条短信，有重复，以文本形式保存，一行一条。找出重复最少的前十条。
解法：哈希表+推排序。
步骤一：统计重复次数，
建立数据节点：
struct HashNode
{
char Value[10];//短信值
int Count;//重复记数
HashNode *next;//指向下一个映射到此处的短信
}Node;

hash函数：
int HashFuc(char const *p)
{
int value=0;
while(*p!='\0')
{
value=*p+value;
P++;
}
return Value%10;//映射的关键语句
}
图表说明:

左边很明显是个数组，数组的每个成员包括一个指针，指向一个链表的头，当然这个链表可能为空，也可能元素很多。我们根据元素的一些特征把元素分配到不同的链表中去，也是根据这些特征，找到正确的链表，再从链表中找出这个元素。

注：常用hash函数构造法：

1，除法散列法
最直观的一种，上图使用的就是这种散列法，公式：
index = value % 16
学过汇编的都知道，求模数其实是通过一个除法运算得到的，所以叫“除法散列法”。

2，平方散列法
求index是非常频繁的操作，而乘法的运算要比除法来得省时（对现在的CPU来说，估计我们感觉不出来），所以我们考虑把除法换成乘法和一个位移操作。公式：
index = (value * value) >> 28 （右移，除以2^28。记法：左移变大，是乘。右移变小，是除。）
如果数值分配比较均匀的话这种方法能得到不错的结果，但我上面画的那个图的各个元素的值算出来的index都是0——非常失败。也许你还有个问题，value如果很大，value * value不会溢出吗？答案是会的，但我们这个乘法不关心溢出，因为我们根本不是为了获取相乘结果，而是为了获取index。

时间复杂度：O(N)

步骤二：

算法一：普通排序
我想对于排序算法大家都已经不陌生了，这里不在赘述，我们要注意的是排序算法的时间复杂度是NlgN，在本题目中，三百万条记录，用1G内存是可以存下的。

算法二：部分排序
题目要求是求出Top 10，因此我们没有必要对所有的短信都进行排序，我们只需要维护一个10个大小的数组，初始化放入10个短信，按照每个短信的统计次数由大到小排序，然后遍历这100万条记录，每读一条记录就和数组最后一个短信count对比，如果小于这个count，那么继续遍历，否则，将数组中最后一条数据淘汰，加入当前的短信。最后当所有的数据都遍历完毕之后，那么这个数组中的10个Query便是我们要找的Top10了。

不难分析出，这样，算法的最坏时间复杂度是N*K，其中K是指top多少。

算法三：堆
在算法二中，我们已经将时间复杂度由NlogN优化到NK，不得不说这是一个比较大的改进了，可是有没有更好的办法呢？

分析一下，在算法二中，每次比较完成之后，需要的操作复杂度都是K，因为要把元素插入到一个线性表之中，而且采用的是顺序比较。这里我们注意一下，该数组是有序的，一次我们每次查找的时候可以采用二分的方法查找，这样操作的复杂度就降到了logK，可是，随之而来的问题就是数据移动，因为移动数据次数增多了。不过，这个算法还是比算法二有了改进。

基于以上的分析，我们想想，有没有一种既能快速查找，又能快速移动元素的数据结构呢？回答是肯定的，那就是堆。
借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此到这里，我们的算法可以改进为这样，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比。

思想与上述算法二一致，只是算法在算法三，我们采用了最小堆这种数据结构代替数组，把查找目标元素的时间复杂度有O（K）降到了O（logK）。
那么这样，采用堆数据结构，算法三，最终的时间复杂度就降到了N‘logK，和算法二相比，又有了比较大的改进。

总结：
至此，算法就完全结束了，经过上述第一步、先用Hash表统计每个Query出现的次数，O（N）；然后第二步、采用堆数据结构找出Top 10，N*O（logK）。所以，我们最终的时间复杂度是：O（N） + N'*O（logK）。（N为1000万，N’为300万）。如果各位有什么更好的算法，欢迎留言评论。

参考：从头到尾测底解决哈希http://blog.youkuaiyun.com/v_JULY_v/article/details/6256463

http://blog.youkuaiyun.com/feixiaoxing/article/details/6885657