哈希Hash数据结构

原创已于 2024-08-09 16:58:41 修改 · 1.2k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#散列表 #哈希算法 #数据结构

于 2024-06-01 17:30:57 首次发布

数据结构专栏收录该内容

6 篇文章

订阅专栏

文章目录

哈希

哈希是一种强大且高效的数据处理技术。通过使用哈希函数将数据映射到固定大小的哈希值，可以实现快速的数据存取。哈希表作为哈希的主要应用，广泛用于各种数据存储和检索场景。理解哈希函数的设计和冲突处理机制，对于有效使用哈希技术至关重要。
哈希（Hashing）是计算机科学中的一种技术，用于将数据映射到固定大小的值或地址（称为哈希值或哈希码）。这种技术广泛应用于数据结构、加密、数据检索等领域。
定义：
哈希是一种将任意长度的输入转化为固定长度输出的算法。
其输出通常被称为哈希值或散列值。
特性：
唯一性：对于任何给定的输入，哈希算法都能生成一个唯一的哈希值（在理想情况下）。但实际上，由于哈希值空间远小于输入空间，可能存在哈希碰撞（即不同的输入产生相同的哈希值），但强大的哈希算法能大大降低这种概率。
固定性：无论输入的长度如何，哈希算法输出的哈希值长度都是固定的。例如，SHA-256算法生成的哈希值长度总是256位。
不可逆性：哈希算法是单向的，即无法从哈希值推导出原始输入。这使得哈希算法在密码存储等领域非常有用。
确定性：给定相同的输入，哈希算法总是能生成相同的哈希值。
散列性：哈希算法的输出值看起来是随机的，并且能将相似的输入映射为截然不同的哈希值。

哈希函数
哈希函数（Hash Function）是将输入数据（键）转换为固定大小的哈希值的算法。哈希值通常是一个整数或唯一的标识符，作为数据在哈希表中的索引。
特点：
确定性：相同的输入总是产生相同的哈希值。
高效性：计算哈希值的过程应尽可能快速。
均匀性：哈希函数应尽量将不同的输入映射到不同的哈希值，减少冲突。
不可逆性：理想的哈希函数应难以从哈希值反推出原始输入数据。
哈希表
哈希表（Hash Table）是一种基于哈希函数的数据结构，用于实现映射（Map）或字典（Dictionary）。它通过将键映射到哈希值来实现快速的数据存取。
基本操作：
插入（Insert）：使用哈希函数计算键的哈希值，将键值对存储在对应的索引位置。
查找（Search）：使用哈希函数计算键的哈希值，在相应位置查找数据。
删除（Delete）：使用哈希函数计算键的哈希值，从相应位置删除数据。
冲突处理：
由于哈希函数可能将不同的键映射到相同的索引位置，发生冲突（Collision）。常见的冲突处理方法包括：
链地址法（Chaining）：
每个哈希表位置存储一个链表，所有映射到该位置的键值对都存储在链表中。
优点：处理冲突的能力强，不需要重新哈希。
缺点：可能导致链表过长，影响性能。
开放地址法（Open Addressing）：
当发生冲突时，寻找表中的其他位置来存储键值对。
常见策略：
线性探测（Linear Probing）：按固定步长查找下一个空位。
二次探测（Quadratic Probing）：步长随探测次数的平方增加。
双重散列（Double Hashing）：使用第二个哈希函数确定步长。
哈希函数设计
设计高效的哈希函数是哈希表性能的关键。良好的哈希函数应具备以下特性：
均匀性：哈希函数应将键均匀分布到哈希表中，以减少冲突。
敏感性：对键的微小变化应能显著改变哈希值。
高效性：计算哈希值的过程应简单且快速。
示例哈希函数：
除留余数法：h(k) = k % m，其中 k 是键，m 是哈希表的大小。
乘法哈希法：h(k) = floor(m * (k * A % 1))，其中 A 是介于 0 和 1 之间的常数。
乘法和加法：对输入进行位运算、乘法和加法以混合键的位。
哈希在不同领域的应用
哈希表：用于快速查找和存储数据。
哈希集合（HashSet）：用于存储唯一元素。
哈希映射（HashMap）：用于存储键值对。
密码学：哈希函数用于生成加密散列值（如 SHA-256），确保数据的完整性和安全性。
数据去重：哈希技术用于检测和删除重复数据。
数据完整性检查：哈希值用于验证数据在传输过程中的完整性。
哈希的优缺点
优点：
快速存取：理论上，哈希表的查找、插入和删除操作时间复杂度为 (O(1))。
高效性：对于大规模数据集，哈希表提供了高效的数据检索和存储能力。
缺点：
冲突处理：虽然有多种冲突处理方法，但它们可能会影响性能。
内存使用：哈希表可能需要较大的内存，尤其是在负载因子较低时。
哈希函数设计：设计一个好的哈希函数是挑战，需要综合考虑均匀性、效率和碰撞处理等因素。

哈希（Hash）使用场景

在计算机科学中，哈希（Hash）被广泛使用，原因有很多
undefined 快速查找：哈希表（Hash Table）是一种基于哈希的数据结构，它允许我们以接近常数时间复杂度（O(1)）的速度进行查找、插入和删除操作。对于大型数据集，这种性能优势是显著的。
undefined 空间效率：哈希表通常比传统的线性搜索或二分搜索所使用的数据结构（如数组或链表）更节省空间。哈希表可以动态地增长和缩小，以适应不同数量的元素。
undefined 处理冲突：虽然哈希函数可能会产生冲突（即两个不同的输入值映射到相同的哈希值），但哈希表通常使用各种策略（如链地址法、开放地址法等）来处理这些冲突，以确保性能仍然高效。
undefined 数据完整性检查：哈希函数也被用于生成数据的哈希值，这些哈希值可以用于检查数据的完整性。例如，在文件传输或存储过程中，可以计算文件的哈希值并在接收时再次计算以检查文件是否已损坏或篡改。
undefined 快速数据去重：在处理大量数据时，我们经常需要删除重复项。哈希表可以帮助我们快速判断一个元素是否已经存在，从而避免插入重复数据。
undefined 快速映射：哈希函数提供了一种从输入空间（如字符串、文件等）到输出空间（通常是较小的整数范围）的快速映射方法。这种映射在许多应用中都是有用的，如缓存、数据库索引等。
undefined 分布式系统：在分布式系统中，哈希函数可以用于将数据均匀地分布到多个节点上，以实现负载均衡和数据分片。这种能力对于处理大规模数据集和构建可扩展的系统至关重要。
undefined 密码学应用：哈希函数在密码学中有着广泛的应用，如密码存储（使用哈希函数存储密码的哈希值而不是明文密码）、数字签名等。哈希函数的安全性对于保护敏感数据和确保系统安全至关重要。
9.数字签名：哈希算法可用于生成数字签名，以确保数据的真实性和完整性。发送方使用私钥对数据的哈希值进行签名，并将签名与数据一起发送。接收方使用公钥对签名进行验证。
10.哈希表：哈希算法可用于实现哈希表数据结构，以提高数据查找和访问的效率。哈希表通过哈希函数将关键字映射到表中的一个位置，从而实现快速查找。
11.区块链：在区块链中，哈希算法用于确保交易记录的安全性。每个区块都会使用哈希算法计算出一个唯一的哈希值，并将其包含在下一个区块中。这使得区块链中的交易记录具有不可篡改性。

哈希表
哈希表（Hash Table）是一种数据结构，用于实现键值对的存储和快速检索。它通过将键映射到数组的索引位置来实现高效的查找操作。哈希表通常由一个数组和一个哈希函数组成，哈希函数用于将键映射到数组索引位置。

哈希函数：哈希函数是哈希表的核心，它接受一个键作为输入，并输出该键对应的哈希值。好的哈希函数应该能够将键均匀地映射到数组的不同位置，减少哈希冲突的发生。
数组：哈希表的底层数据结构通常是一个数组，每个数组元素称为“桶”或“槽”，用于存储键值对。
哈希冲突：当不同的键经过哈希函数映射到相同的数组索引位置时，就会发生哈希冲突。解决哈希冲突是设计哈希表时需要考虑的重要问题。
解决哈希冲突的方法：常见的方法包括链地址法（Chaining）和开放定址法（Open Addressing）。链地址法将哈希表中的每个位置设置为一个链表或其他数据结构，用于存储冲突的元素；开放定址法在发生哈希冲突时，通过一定的规则寻找下一个可用的位置来存储冲突的元素。
时间复杂度：哈希表具有非常快的平均时间复杂度，对于插入、删除和搜索操作，平均情况下可以达到 O(1) 的时间复杂度。
应用：哈希表被广泛应用于编程中，如实现关联数组、缓存、数据库索引等。
总之，哈希表是一种非常重要且高效的数据结构，对于存储大量键值对并需要快速检索的场景下具有很大的优势。设计合适的哈希函数和解决哈希冲突的方法是哈希表设计的关键。
哈希表详解
散列表（Hash table，也叫哈希表）是一种查找算法，与链表、树等算法不同的是，散列表算法
在查找时不需要进行一系列和关键字（关键字是数据元素中某个数据项的值，用以标识一个数据元素）的比较操作。
散列表算法希望能尽量做到不经过任何比较，通过一次存取就能得到所查找的数据元素，因而必须要在数据元素的存储位置和它的关键字（可用 key 表示）之间建立一个确定的对应关系，使每个关键字和散列表中一个唯一的存储位置相对应。因此在查找时，只要根据这个对应关系找到给定关键字在散列表中的位置即可。这种对应关系被称为散列函数(可用 h(key)表示)。
用的构造散列函数的方法有：
（1）直接定址法：取关键字或关键字的某个线性函数值为散列地址。
即：h(key) = key 或 h(key) = a * key + b，其中 a 和 b 为常数。
（2）数字分析法
（3）平方取值法：取关键字平方后的中间几位为散列地址。
（4）折叠法：将关键字分割成位数相同的几部分，然后取这几部分的叠加和作为散列地址。
（5）除留余数法：取关键字被某个不大于散列表表长 m 的数 p 除后所得的余数为散列地址，即：h(key) = key MOD p p ≤ m
（6）随机数法：选择一个随机函数，取关键字的随机函数值为它的散列地址，
即：h(key) = random(key)
哈希表和散列表其实是同一个数据结构的不同称呼。哈希表（Hash Table）是一种基于哈希函数实现的数据结构，用于快速存储和检索键值对。而散列表（Hash Table）则是哈希表的另一种称呼，通常也指使用哈希函数将键映射到存储桶的数据结构。因此，哈希表和散列表在计算机科学中通常是可以互换使用的术语。
哈希表是基于数组的一种存储方式.它主要由哈希函数和数组构成。当要存储一个数据的时候，首先用一个函数计算数据的地址，然后再将数据存进指定地址位置的数组里面。这个函数就是哈希函数，而这个数组就是哈希表。
哈希冲突是指哈希函数算出来的地址被别的元素占用了，也就是，这个位置有人了。好的哈希函数会尽量避免哈希冲突。

什么是 Hash 冲突
Key 值不同但是 hashcode 值相等
== 对于基本类型来说是值比较，对于引用类型来说是比较的是引用；而 equals 默认情况下是引用比较，只是很多类重新了 equals 方法，比如 String、Integer 等把它变成了值比较，所以一般情况下 equals 比较的是值是否相等。
equals 和== 最大的区别是一个是方法，一个是运算符。
==：如果比较的对象是基本数据类型，则比较的是数值是否相等；如果比较的是引用数据类型，则比较的是对象的地址值是否相等。
equals()：用来比较方法两个对象的内容是否相等。
注意：equals 方法不能用于基本数据类型的变量，如果没有对 equals 方法进行重写，则比较的是引用类型的变量所指向的对象的地址。

就是不同数据hash算法计算出来的结果可能是相同的，那么不同的数据就会放在同一个下标位置。
哈希冲突是指在使用哈希函数将不同的输入映射到相同的哈希值时发生的现象。哈希函数通常用于将大量的数据映射到有限的地址空间，比如将键映射到哈希表的索引位置。由于输入的数量远远大于哈希表的大小，所以不同的输入可能会被映射到相同的哈希表位置。

当两个不同的键经过哈希函数后得到相同的哈希值时，就会产生哈希冲突。这种情况下，如果没有合适的处理方法，就会导致数据的覆盖或者查找数据时出现错误的结果。

解决哈希冲突的常见方法

链地址法（Chaining）：将哈希表中的每个位置设置为一个链表或者其他数据结构，当发生哈希冲突时，将冲突的元素存储在同一位置的链表中。这是一种非常常见的方法，简单理解就是把存在hash冲突的key，以单向链表的方式来存储。将所有关键字为同义词的结点链接在同一个单链表中。若选定的散列表长度为m，则可将散列表定义为一个由m个头指针组成的指针数组T[0…m-1]。凡是散列地址为i的结点，均插入到以T[i]为头指针的单链表中。T中各分量的初值均应为空指针。
开放定址法（Open Addressing）：在发生哈希冲突时，通过一定的规则寻找下一个可用的位置来存储冲突的元素，如线性探测、二次探测等。包含线性探测、平方探测等等，就是从发生冲突的那个位置开始，按照一定的次序从hash表中找到一个空闲的位置，然后把发生冲突的元素存入到这个空闲位置中。ThreadLocal就用到了线性探测法来解决hash冲突的。
3.建立公共溢出区，就是把hash表分为基本表和溢出表两个部分，凡事存在冲突的元素，一律放入到溢出表中
4.再hash法，就是当通过某个hash函数计算的key存在冲突时，再用另外一个hash函数对这个key做hash，一直运算直到不再产生冲突。这种方式会增加计算时间，性能影响较大。
选择合适的解决哈希冲突的方法对于设计高效的哈希表至关重要，不同的方法适合不同的应用场景和需求。

HashMap 如何解决 Hash 冲突的
通过引入单向链表来解决 Hash 冲突。当出现 Hash 冲突时，比较新老 key 值是否相等，
如果相等，新值覆盖旧值。如果不相等，新值会存入新的 Node 结点，指向老节点，形成链式结构，即链表。
当 Hash 冲突发生频繁的时候，会导致链表长度过长，以致检索效率低，所以 JDK1.8 之后引入了红黑树，当链表长度大于 8 时，链表会转换成红黑书，以此提高查询性能。
因为发生 hash 冲突的时候，会在链表上新增节点，但是链表过长的话会影响检索效率，引入红黑树可以提高插入和查询的效率。

HashMap就是通过链式寻址法来解决的，但是链式地址有个问题：当链表过长的时候，会影响查询性能，所以在HashMap里，当链表长度大于8的时候，会转为红黑树，提升查询性能。但是树在添加数据的时候也会有树的分裂合并，所以在树节点小于6的时候，又会转为链表这个是我对HashMap哈希冲突的理解
首先，我们得知道下HashMap的存储方式，HashMap是k-v的数据结构，底层是一个entry数组的数据结构，并且根据key计算出一个hash值，取模entry数组长度-1，得到一个下标位置来存储数据。

简单总结一下 HashMap 是使用了哪些方法来有效解决哈希冲突的

使用链地址法（使用散列表）来链接拥有相同 hash 值的数据；
使用 2 次扰动函数（hash 函数）来降低哈希冲突的概率，使得数据分布更平均；
引入红黑树进一步降低遍历的时间复杂度，使得遍历更快

哈希表概述

哈希表（Hash Table）是一种数据结构，用于实现键值对的存储和快速检索。它通过将键映射到数组的索引位置来实现高效的查找操作。哈希表通常由一个数组和一个哈希函数组成，哈希函数用于将键映射到数组索引位置。
下面是哈希表的一些重要特点和详细解释：

哈希函数：哈希函数是哈希表的核心，它接受一个键作为输入，并输出该键对应的哈希值。好的哈希函数应该能够将键均匀地映射到数组的不同位置，减少哈希冲突的发生。
数组：哈希表的底层数据结构通常是一个数组，每个数组元素称为“桶”或“槽”，用于存储键值对。
哈希冲突：当不同的键经过哈希函数映射到相同的数组索引位置时，就会发生哈希冲突。解决哈希冲突是设计哈希表时需要考虑的重要问题。
解决哈希冲突的方法：常见的方法包括链地址法（Chaining）和开放定址法（Open Addressing）。链地址法将哈希表中的每个位置设置为一个链表或其他数据结构，用于存储冲突的元素；开放定址法在发生哈希冲突时，通过一定的规则寻找下一个可用的位置来存储冲突的元素。
时间复杂度：哈希表具有非常快的平均时间复杂度，对于插入、删除和搜索操作，平均情况下可以达到 O(1) 的时间复杂度。
应用：哈希表被广泛应用于编程中，如实现关联数组、缓存、数据库索引等。

总之，哈希表是一种非常重要且高效的数据结构，对于存储大量键值对并需要快速检索的场景下具有很大的优势。设计合适的哈希函数和解决哈希冲突的方法是哈希表设计的关键。

哈希表详解

散列表（Hash table，也叫哈希表）是一种查找算法，与链表、树等算法不同的是，散列表算法
在查找时不需要进行一系列和关键字（关键字是数据元素中某个数据项的值，用以标识一个数据元素）的比较操作。
散列表算法希望能尽量做到不经过任何比较，通过一次存取就能得到所查找的数据元素，因而必须要在数据元素的存储位置和它的关键字（可用 key 表示）之间建立一个确定的对应关系，使每个关键字和散列表中一个唯一的存储位置相对应。因此在查找时，只要根据这个对应关系找到给定关键字在散列表中的位置即可。这种对应关系被称为散列函数(可用 h(key)表示)。
用的构造散列函数的方法有：
（1）直接定址法：取关键字或关键字的某个线性函数值为散列地址。
即：h(key) = key 或 h(key) = a * key + b，其中 a 和 b 为常数。
（2）数字分析法
（3）平方取值法：取关键字平方后的中间几位为散列地址。
（4）折叠法：将关键字分割成位数相同的几部分，然后取这几部分的叠加和作为散列地址。
（5）除留余数法：取关键字被某个不大于散列表表长 m 的数 p 除后所得的余数为散列地址，即：h(key) = key MOD p p ≤ m
（6）随机数法：选择一个随机函数，取关键字的随机函数值为它的散列地址，
即：h(key) = random(key)
哈希表和散列表其实是同一个数据结构的不同称呼。哈希表（Hash Table）是一种基于哈希函数实现的数据结构，用于快速存储和检索键值对。而散列表（Hash Table）则是哈希表的另一种称呼，通常也指使用哈希函数将键映射到存储桶的数据结构。因此，哈希表和散列表在计算机科学中通常是可以互换使用的术语。
哈希表是基于数组的一种存储方式.它主要由哈希函数和数组构成。当要存储一个数据的时候，首先用一个函数计算数据的地址，然后再将数据存进指定地址位置的数组里面。这个函数就是哈希函数，而这个数组就是哈希表。
哈希冲突是指哈希函数算出来的地址被别的元素占用了，也就是，这个位置有人了。好的哈希函数会尽量避免哈希冲突。

什么是 Hash 冲突

Key 值不同但是 hashcode 值相等
== 对于基本类型来说是值比较，对于引用类型来说是比较的是引用；而 equals 默认情况下是引用比较，只是很多类重新了 equals 方法，比如 String、Integer 等把它变成了值比较，所以一般情况下 equals 比较的是值是否相等。
equals 和== 最大的区别是一个是方法，一个是运算符。
==：如果比较的对象是基本数据类型，则比较的是数值是否相等；如果比较的是引用数据类型，则比较的是对象的地址值是否相等。
equals()：用来比较方法两个对象的内容是否相等。
注意：equals 方法不能用于基本数据类型的变量，如果没有对 equals 方法进行重写，则比较的是引用类型的变量所指向的对象的地址。

哈希冲突的常见解决方法

链地址法（Chaining）：将哈希表中的每个位置设置为一个链表或者其他数据结构，当发生哈希冲突时，将冲突的元素存储在同一位置的链表中。这是一种非常常见的方法，简单理解就是把存在hash冲突的key，以单向链表的方式来存储。
将所有关键字为同义词的结点链接在同一个单链表中。若选定的散列表长度为m，则可将散列表定义为一个由m个头指针组成的指针数组T[0…m-1]。凡是散列地址为i的结点，均插入到以T[i]为头指针的单链表中。T中各分量的初值均应为空指针。
开放定址法（Open Addressing）：在发生哈希冲突时，通过一定的规则寻找下一个可用的位置来存储冲突的元素，如线性探测、二次探测等。包含线性探测、平方探测等等，就是从发生冲突的那个位置开始，按照一定的次序从hash表中找到一个空闲的位置，然后把发生冲突的元素存入到这个空闲位置中。ThreadLocal就用到了线性探测法来解决hash冲突的。
当冲突发生时，使用某种探查(亦称探测)技术在散列表中形成一个探查(测)序列。沿此序列逐个单元地查找，直到找到给定的关键字，或者碰到一个开放的地址(即该地址单元为空)为止（若要插入，在探查到开放的地址，则可将待插入的新结点存人该地址单元）。查找时探查到开放的地址则表明表中无待查的关键字，即查找失败。
3.建立公共溢出区，就是把hash表分为基本表和溢出表两个部分，凡事存在冲突的元素，一律放入到溢出表中
4.再hash法，就是当通过某个hash函数计算的key存在冲突时，再用另外一个hash函数对这个key做hash，一直运算直到不再产生冲突。这种方式会增加计算时间，性能影响较大。
选择合适的解决哈希冲突的方法对于设计高效的哈希表至关重要，不同的方法适合不同的应用场景和需求。

HashMap 如何解决 Hash 冲突的

通过引入单向链表来解决 Hash 冲突。当出现 Hash 冲突时，比较新老 key 值是否相等，
如果相等，新值覆盖旧值。如果不相等，新值会存入新的 Node 结点，指向老节点，形成链式结构，即链表。
当 Hash 冲突发生频繁的时候，会导致链表长度过长，以致检索效率低，所以 JDK1.8 之后引入了红黑树，当链表长度大于 8 时，链表会转换成红黑书，以此提高查询性能。
因为发生 hash 冲突的时候，会在链表上新增节点，但是链表过长的话会影响检索效率，引入红黑树可以提高插入和查询的效率。

简单总结一下 HashMap 是使用了哪些方法来有效解决哈希冲突的