数据结构 Java数据结构 --- 哈希表

最新推荐文章于 2024-06-05 18:18:36 发布

原创最新推荐文章于 2024-06-05 18:18:36 发布 · 682 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#数据结构 #java #散列表

程序员专栏收录该内容

742 篇文章

订阅专栏

使用场景：适合查找比较小且连续的情况

面试题:

Leet 387: 字符串中的第一个唯一字符

描述: 给定一个字符串 s ，找到它的第一个不重复的字符，并返回它的索引。如果不存在，则返回 -1 。

在这里插入图片描述

解题思路:

定义一个数组 arr 长度为 26
遍历字符串, 每次遍历得到的字符 ch, 让 arr[ch-'a']++;
再次遍历字符串,每次遍历得到的字符ch,判断arr[ch-'a'] == 1 ,

如果为真,即返回当前的下标.

如果遍历结束,没有为真的情况,返回-1

代码实现:

class Solution {

public int firstUniqChar(String s) {

int[] arr = new int[26];

for(Character ch : s.toCharArray()){

arr[ch-‘a’] ++;

}

for (int i = 0; i < s.length(); i++) {

if(arr[s.charAt(i)-‘a’]==1){

return i;

}

return -1;

}

4.2 除留余数法–(常用)

设散列表中允许的地址数为m，取一个不大于m，但最接近或者等于m的质数p作为除数，按照哈希函数：Hash(key) = key% p(p<=m),将关键码转换成哈希地址

4.3 平方取中法–(了解)

假设关键字为1234，对它平方就是1522756，抽取中间的3位227作为哈希地址；再比如关键字为4321，对它平方就是18671041，抽取中间的3位671(或710)作为哈希地址

平方取中法比较适合：不知道关键字的分布，而位数又不是很大的情况

4.4 折叠法–(了解)

折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些)，然后将这几部分叠加求和，并按散列表表长，取后几位作为散列地址。

折叠法适合事先不需要知道关键字的分布，适合关键字位数比较多的情况

4.5 随机数法–(了解)

选择一个随机函数，取关键字的随机函数值为它的哈希地址，即H(key) = random(key),其中random为随机数函数。

通常应用于关键字长度不等时采用此法

4.6 数学分析法–(了解)

设有n个d位数，每一位可能有r种不同的符号，这r种不同的符号在各位上出现的频率不一定相同，可能在某些位上分布比较均匀，每种符号出现的机会均等，在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小，选择其中各种符号分布均匀的若干位作为散列地址。例如：

在这里插入图片描述

假设要存储某家公司员工登记表，如果用手机号作为关键字，那么极有可能前7位都是相同的，那么我们可以选择后面的四位作为散列地址，如果这样的抽取工作还容易出现冲突，还可以对抽取出来的数字进行反转(如1234改成4321)、右环位移(如1234改成4123)、左环移位、前两数与后两数叠加(如1234改成12+34=46)等方法。

数字分析法通常适合处理关键字位数比较大的情况，如果事先知道关键字的分布且关键字的若干位分布较均匀的情况

注意：哈希函数设计的越精妙，产生哈希冲突的可能性就越低，但是无法避免哈希冲突

5. 冲突-避免-负载因子调节（重点掌握）

=========================================================================================

散列表的载荷因子定义为: α = 填入表中的元素个数 / 散列表的长度

α是散列表装满长度的标志因子.由于表长是定值.α与"填入表中的元素个数"成正比,所以,α越大,表明填入表中的元素越多,产生冲突的可能性就越大;反之,α越小,标明填入表中的元素越少,产生冲突的可能性就越小.实际上,散列表的平均查找长度是负载因子α的函数,只是不同处理冲突的方法有不同的函数.

对于开放定址法,负载因子是特别重要的因素,应严格限制在0.7~0.8以下,超过0.8,查表时的CPU缓存不命中(cache missing)按照指数曲线上升.因此,一些采用开放定址法的hash库,如Java的系统库限制了荷载因子为0.75,超过此值将resize散列表.

负载因子和冲突率的关系粗略演示

在这里插入图片描述

**所以当冲突率达到一个无法忍受的程度时，我们需要通过降低负载因子来变相的降低冲突率。

已知哈希表中已有的关键字个数是不可变的，那我们能调整的就只有哈希表中的数组的大小。**

6. 冲突-解决-闭散列

================================================================================

闭散列：也叫开放定址法，当发生哈希冲突时，如果哈希表未被装满，说明在哈希表中必然还有空位置，那么可以把key存放到冲突位置中的“下一个” 空位置中去。

如何寻找空的位置?

6.1 线性探测

比如上面的场景，现在需要插入元素44，先通过哈希函数计算哈希地址，下标为4，因此44理论上应该插在该位置，但是该位置已经放了值为4的元素，即发生哈希冲突。

线性探测：从发生冲突的位置开始，依次向后探测，直到寻找到下一个空位置为止。

插入
通过哈希函数获取待插入元素在哈希表中的位置
如果该位置中没有元素则直接插入新元素，如果该位置中有元素发生哈希冲突，使用线性探测找到下一个空位置，插入新元素
采用闭散列处理哈希冲突时，不能随便物理删除哈希表中已有的元素，若直接删除元素会影响其他元素的搜索。比如删除元素4，如果直接删除掉，44查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素。

在这里插入图片描述

缺点: 产生冲突的数据堆积在一块，这与其找下一个空位置有关系，因为找空位置的方式就是挨着往后逐个去找

6.2 二次探测

因此二次探测为了避免该问题，找下一个空位置的方法为: Hi= ( H0+i2 ) % m

其中：i = 1,2,3…， H0是通过散列函数Hash(x)对元素的关键码 key 进行计算得到的位置，m是表的大小。

在这里插入图片描述

研究表明： 当表的长度为质数且表装载因子a不超过0.5时，新的表项一定能够插入，而且任何一个位置都不会被探查两次。因此只要表中有一半的空位置，就不会存在表满的问题。在搜索时可以不考虑表装满的情况，但在插入时必须确保表的装载因子a不超过0.5，如果超出必须考虑增容

因此：闭散列最大的缺陷就是空间利用率比较低，这也是哈希的缺陷

7. 冲突-解决-开散列/哈希桶（重点掌握）

==========================================================================================

开散列法又叫链地址法(开链法)，首先对关键码集合用散列函数计算散列地址，具有相同地址的关键码归于同一子集合，每一个子集合称为一个桶，各个桶中的元素通过一个单链表链接起来，各链表的头结点存储在哈希表中。

7.1 代码实现

public class HashBuck {

static class Node {

public int key;

public int val;

public Node next;

public Node(int key,int val) {

this.key = key;

this.val = val;

}

public Node[] array;

public int usedSize;

public static final double DEFAULT_LOAD_FACTOR = 0.75;

public HashBuck() {

this.array = new Node[10];

}

public void put(int key,int val){

// 1. 找到key的位置

int index = key % array.length;

// 2. 遍历这个下标的链表,看是否有相同key,有相同的key需要更新val

Node cur = array[index];

while (cur != null){

if(cur.key == key){

cur.val = val;

return;

}

cur = cur.next;

}

//3.没有这个key这个元素

//头插法

/*Node node = new Node(key,val);

node.next = array[index];

array[index] = node;

this.usedSize++;*/

//尾插法

Node node = new Node(key, val);

if(array[index] == null){

array[index] = node;

}else {

Node tmp = array[index];

while(tmp.next != null){

tmp = tmp.next;

}

tmp.next = node;

}

this.usedSize++;

//4.插入元素成功之后,检查当前散列表的负载因子

if(loadFactor() > DEFAULT_LOAD_FACTOR){

resize();

}

private void resize() {

Node[] newArray = new Node[array.length*2];

for (int i = 0; i < array.length; i++) {

Node cur = array[i];

while (cur != null){

int index = cur.key % newArray.length;//获取新的下标

// cur节点以头插或尾插形式插入到新的数组对应下标的链表当中

Node curNext = cur.next;

cur.next = newArray[index];

newArray[index] = cur;

cur = curNext;

}

array = newArray;

}

private double loadFactor() {

return 1.0 * usedSize / array.length;

}

/**

根据key获取val的值
@param key
自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Java工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

如果你觉得这些内容对你有帮助，可以扫码获取！！（备注Java获取）

最后

给大家送一个小福利

附高清脑图，高清知识点讲解教程，以及一些面试真题及答案解析。送给需要的提升技术、准备面试跳槽、自身职业规划迷茫的朋友们。

《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》，点击传送门即可获取！
觉得这些内容对你有帮助，可以扫码获取！！（备注Java获取）**

最后

给大家送一个小福利

[外链图片转存中…(img-4h6QbU57-1712448148930)]

附高清脑图，高清知识点讲解教程，以及一些面试真题及答案解析。送给需要的提升技术、准备面试跳槽、自身职业规划迷茫的朋友们。

[外链图片转存中…(img-f5Zmv3xw-1712448148931)]

《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》，点击传送门即可获取！