hash与HashMap详解

本文详细介绍了哈希算法的基本概念,包括其特点、用途以及碰撞性的解决方法。深入探讨了Java中HashMap的工作原理,包括其设计、源码分析及线程安全性问题。同时,文章还提供了手写模仿HashMap的示例代码,帮助读者更好地理解其内部机制。

hash的介绍

Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射)通过散列算法变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来确定唯一的输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

优秀的哈希算法特点

效率高
不可逆性
敏感性
低碰撞性
速度、空间、碰撞性进行取舍,不同的hash算法侧重点不同

java中的hash

  1. hashCode:代表一个对象的签名,两个对象相等则hashCode一定要相等,但是,两个hashCode相等,对应的两个对象则不一定相等(碰撞),在数学中叫“必要条件”。
  2. HashMap:侧重速度。
  3. Object.hashCode:直接获取内存地址
  4. Integer.hashCode:直接返回的intValue
  5. String.hashCode:根据字符串内容生成hashCode,字符串内容一样则hashCode也相同,String对象会保存第一次计算出的哈希值,之后该对象用到的哈希值都是这个保存好的哈希值,不会再次计算。

其他场景中的Hash算法

  1. MD4,MD5
  2. SHA(Secure Hash Algorithm)[SHA-1, SHA-224, SHA-256, SHA-384, SHA-512]

哈希算法的用途

  1. 哈希查找,哈希表
  2. 秒传(百度网盘传电影,如果电影的哈希值在数据库中已经存在了,就直接引用)
  3. HashMap
  4. 加解密,MD5,SHA
  5. Git文件提交
  6. 区块链

碰撞性及解决方法

  1. MD5碰撞案例
  2. SHA1碰撞案例
  3. 再散列函数法:算出一个对象的哈希值,发现已经被其他对象算出来,这时候就再次散列一下,直到算出来的值以前没有存在过,空间不足时用链地址法。
  4. 链地址法
哈希值相同加入链表
e
b
f
a
c
d

手写模仿HashMap主要功能

public class MyHashMap<K, V> {
    
    private Entry<K, V>[] table;
    //容量
    private static final Integer CAPCITY = 1 << 4; //16
    //存入个数
    private int size;
    
    public void put(K k, V v) {
    	//HashMap是懒加载,table在第一次存入数据时才初始化。
        if (null == table) {
            inflate();
        }
        //计算key的哈希值
        int hashCode = hash(k);
        //计算下标
        int index = indexFor(hashCode);
        for (Entry<K, V> entry = table[index]; entry != null; entry = entry.next) {
            if (entry.key.equals(k)) {
                entry.value = v;
                return;
            }
        }
        addEntry(k, v, index);
    }

    private void addEntry(K k, V v, int index) {
    	//如果是table[index]已经存在(产生碰撞),在原来的table[index]头上添加新的对象,新对象的next参数指向原对象,这里用的是链地址法。
        Entry<K, V> newEntry = new Entry<>(k, v, table[index]);
        table[index] = newEntry;
        size++;
    }

    private int indexFor(int hashCode) {
        return hashCode % table.length;
    }

    private int hash(K k) {
        return k.hashCode();
    }

    private void inflate() {
        table = new Entry[CAPCITY];
    }

    public V get(K k) {
        int hashCode = hash(k);
        int index = indexFor(hashCode);

        for (Entry<K, V> entry = table[index]; entry != null; entry = entry.next) {
            if (entry.key.equals(k)) {
                return entry.value;
            }
        }
        return null;
    }

    class Entry<K, V> {
        public K key;
        public V value;
        //产生碰撞时用的链地址法往链表下面加对象,指向链表的下一个对象,或者往链表上面加。
        public Entry<K, V> next;

        public Entry(K key, V value) {
            this.key = key;
            this.value = value;
        }

        public Entry(K key, V value, Entry<K, V> next) {
            this.key = key;
            this.value = value;
            this.next = next;
        }

        public K getKey() {
            return key;
        }

        public V getValue() {
            return value;
        }
    }

    public static void main(String[] args) {
        MyHashMap<String, String> myHashMap = new MyHashMap<>();
        myHashMap.put("1", "1v");
        myHashMap.put("2", "2v");
        myHashMap.put("3", "3v");
        System.out.println(myHashMap.get("3"));
    }
}

研究HashMap源码 1.7

1.7源码解读:https://blog.youkuaiyun.com/carson_ho/article/details/79373026

HashMap是线程不安全的

扩容resize的时候会出现死循环 http://www.importnew.com/22011.html
fail-fast快速失败法,比如在遍历时元素删除,会抛出ConcurrentHashMap

		HashMap<String, String> hashMap = new HashMap<>();
        hashMap.put("1", "1");
        hashMap.put("2", "2");

        //modCount=3
        for (String key : hashMap.keySet()) {
            if (key.equals("2")) {
                hashMap.remove(key);
            }
        }
        System.out.println(hashMap);

解决方法1:在迭代器中删除

		HashMap<String, String> hashMap = new HashMap<>();
        hashMap.put("1", "1");
        hashMap.put("2", "2");

        //modCount=3
        /*for (String key : hashMap.keySet()) {
            if (key.equals("2")) {
                hashMap.remove(key);
            }
        }*/
        
        Iterator<String> iterator = hashMap.keySet().iterator();
        while (iterator.hasNext()) {
            String key = iterator.next();
            if (key.equals("1")) {
                iterator.remove();
            }
        }
        
        System.out.println(hashMap);

解决方法2:使用ConcurrentHashMap

 		ConcurrentHashMap<String, String> hashMap = new ConcurrentHashMap<>();
        hashMap.put("1", "1");
        hashMap.put("2", "2");

        //modCount=3
        for (String key : hashMap.keySet()) {
            if (key.equals("2")) {
                hashMap.remove(key);
            }
        }

        /*Iterator<String> iterator = hashMap.keySet().iterator();
        while (iterator.hasNext()) {
            String key = iterator.next();
            if (key.equals("1")) {
                iterator.remove();
            }
        }*/

        System.out.println(hashMap);

为什么要用2的次方数作为数组大小?

1、新老索引可以尽可能保持一致,大大减少了之前已经散列良好的老数组的数据位置重新调换。
2、低位全是1,有更好的散列性。

为什么重写equals的时候要重写hashCode方法?

public class Equals {

    public static void main(String[] args) {
        Person person1 = new Person(1, "gakki");
        Person person2 = new Person(1, "gakki");
        System.out.println(person1.equals(person2));
        HashMap<Person, String> hashMap = new HashMap<>();
        hashMap.put(person1, "可爱");
        System.out.println(hashMap.get(person1));//可爱
        System.out.println(hashMap.get(person2));//null
        //HashMap中下标是通过key的哈希计算出来的,person1和person2的哈希值不一样,所以算出的下标不一样,为了使下标一样,必须重写hashCode方法
    }

    //目的是id一样,person就一样
    static class Person{
        private int id;
        private String name;

        public Person(int id, String name) {
            this.id = id;
            this.name = name;
        }

        @Override
        public boolean equals(Object o) {
            if (this == o) return true;
            if (o == null || getClass() != o.getClass()) return false;
            Person person = (Person) o;
            return id == person.id;
        }
    
        //应该重写hashCode
        /*@Override
        public int hashCode() {
            return Objects.hash(id);
        }*/
    }
}
<think>首先,理解用户的需求:用户询问“HashMap的详细解析”,并提供了几个引用,这些引用讨论了HashMap内部的哈希方法、索引定位、避免碰撞等技术细节。用户引用了[1]到[4],但这些引用是用户提供的,我需要基于它们来构建回答。 回顾系统指令: - 所有行内数学表达式必须使用$...$格式。 - 独立公式单独成段使用$$...$$。 - LaTeX语法正确。 - 使用中文回答。 - 生成相关问题。 - 回答中引用的段落末尾自然地添加引用标识,如[^1]。 用户的需求是“HashMap的详细解析”,所以我需要一个全面、结构清晰的解释。 结构化回答: 1. **介绍HashMap**:简要说明什么是HashMap,它在Java中的作用。 2. **核心组件**:解释HashMap的数据结构(数组+链表/红黑树),基于引用[2]和[4]。 3. **哈希过程**:详细解释哈希方法,如扰动函数(highBits XOR lowBits),基于引用[1]和[3]。 4. **索引定位**:描述如何定位桶位置,使用(n-1) & hash,来自引用[4]。 5. **处理冲突**:解释拉链法(链表)和在JDK 8中的优化(红黑树),基于引用[4]。 6. **性能考虑**:讨论为什么这些设计能提高效率,避免哈希碰撞。 7. **其他细节**:如null键处理、扩容机制等。 确保使用中文回答。 生成相关问题:在回答结束时,添加相关问题,如系统指令所示。参考示例,相关问题应主题相关。 引用处理: - 用户提供了引用[1]到[4],所以我需要在回答中自然地引用它们。例如,当提到哈希函数的扰动时,添加[^1],当讨论索引定位时添加[^2]等。 - 引用标识应放在相关段落的末尾。 数学表达式: - 如果有哈希计算的公式,如(h >>> 16) ^ h,需要用行内数学格式:$h \gg 16 \oplus h$(LaTeX语法)。在LaTeX中,异或是\oplus,移位是\gg。 - 定位公式:(n-1) & hash,写成$(n-1) \& \text{hash}$。 核心内容基于引用: - [1]:讨论了哈希值不是直接使用hashCode,而是通过扰动函数(高位移位异或)来减少碰撞。 - [2]:强调了索引定位的重要性,用于高效查找。 - [3]:展示了hash方法的代码,并提问为什么这样设计。 - [4]:概述了HashMap的数据结构(数组+链表),JDK 8优化(红黑树),以及拉链法。 我的回答应整合这些信息: 1. **HashMap的定义**:HashMap是Java中的哈希表实现,用于存储键值对。 2. **数据结构**:在JDK 8之前是数组+链表;之后引入红黑树优化。 3. **哈希函数**:使用扰动函数hash(Object key) { int h; return (key == null) ? 0 : h = key.hashCode() ^ (h >>> 16); }。解释为什么:避免高位差异导致的碰撞,因为索引计算忽略高位。 4. **索引计算**:index = (n-1) & hash,其中n是数组长度。 5. **冲突处理**:通过链表存储相同桶的元素;当链表过长(默认阈值8),转换为红黑树以提高性能。 6. **操作细节**:put、get、resize等。 7. **性能优化**:如引用所述,设计目标是均匀分布元素。 确保回答真实可靠:基于我对HashMap的知识,补充细节,但主要参考提供的引用。 最终结构: - 开头简要介绍。 - 分节详细解析。 - 结束时生成相关问题。 </think>### HashMap详细解析 HashMap 是 Java 集合框架中基于哈希表实现的键值对数据结构,它提供了高效的插入、删除和查找操作(平均时间复杂度为$O(1)$)。HashMap 的核心设计目标是实现键值对的快速存取,并通过哈希算法和冲突处理机制确保元素均匀分布,避免性能退化。以下我将基于您的引用内容,从底层原理到优化策略进行详细解析。解析内容包括数据结构、哈希计算、索引定位、冲突处理以及 JDK 版本差异等关键方面。 #### 1. **HashMap的数据结构** HashMap 底层的核心是一个数组(称为桶数组或哈希桶),每个数组元素存储一个链表或红黑树(在 JDK 1.8 及以后)。这种设计称为“链表散列”: - **数组部分**:存储桶(buckets),每个桶对应一个哈希索引位置。数组长度(capacity)通常是 2 的幂次方(如 16、32),这简化了索引计算。 - **链表/树部分**:当多个键映射到同一个桶时,冲突元素以链表形式存储;当链表长度超过阈值(默认 8)时,转换为红黑树(JDK 1.8 引入),以优化查询性能(从$O(n)$到$O(\log n)$)。例如,HashMap 的存储结构可表示为: - 数组索引:$index = (n-1) \& hash$,其中 $n$ 是数组长度,$hash$ 是扰动后的哈希值。 - 链表节点:存储键值对(entry),包含 key、value 和 next 指针。 这种结构允许快速定位桶位置,减少遍历开销[^4]。 #### 2. **哈希计算方法** HashMap 不直接使用 key 的 hashCode,而是通过一个内部扰动函数(hash 方法)重新计算哈希值。这是为了避免哈希碰撞(不同 key 映射到相同桶)。扰动函数的代码如引用所示: ```java static final int hash(Object key) { int h; return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); } ``` - **为什么需要扰动?** 直接使用 hashCode 可能导致高位差异大但低位相似的 key 碰撞,因为索引计算只关注低位(原因见索引定位部分)。扰动函数通过高位(h >>> 16)低位异或(^)混合,使哈希值更均匀。数学上,这相当于将高位数据“折叠”到低位:$hash = h \oplus (h \gg 16)$,其中 $\oplus$ 是异或运算。这种处理增加了哈希的离散性,减少碰撞概率[^1][^3]。 - **null 键处理**:HashMap 允许 null 键,其哈希值固定为 0(放在索引 0 的桶中)[^4]。 #### 3. **索引定位机制** 定位桶位置是 HashMap 操作(如 put、get)的第一步,直接影响性能: - **索引计算公式**:$index = (n-1) \& hash$,其中 $n$ 是数组长度,$hash$ 是扰动后的哈希值。 - 为什么使用 $(n-1) \& hash$?因为 $n$ 是 2 的幂次方,$(n-1)$ 的二进制形式是全 1(例如,$n=16$时,$(16-1)=15$,二进制为 1111)。按位(&)操作等价于取模运算($hash \mod n$),但效率更高。这确保了索引在数组范围内(0 到 n-1)。 - **为什么忽略高位?** 在索引计算中,高位被 $(n-1)$ 的掩码过滤掉。如果扰动缺失,高位变化大的 key 可能映射到相同索引(因为低位相同)。扰动函数确保了高位变化能影响索引结果,提升分布均匀性。这直接优化了查询效率,避免不必要的链表遍历[^2][^4]。 #### 4. **冲突处理机制** 当多个 key 映射到同一索引时,HashMap 使用“拉链法”解决冲突: - **链表存储**:冲突元素以单向链表形式存储在桶中。添加新元素时,检查 key 是否相同(通过 equals() 方法);相同则覆盖值,不同则添加链表尾部。 - **红黑树优化(JDK 1.8+)**:当链表长度超过阈值(默认 8)时,链表转换为红黑树(平衡二叉搜索树),将查询时间复杂度从$O(n)$优化到$O(\log n)$。当元素减少(树节点数小于 6)时,树退化为链表。这种优化解决了链表过长导致的性能下降问题。 - **碰撞影响**:高碰撞率会退化性能(如链表过长),扰动函数和树化机制有效缓解了这一点[^4]。 #### 5. **关键操作解析** - **put(key, value)**:计算 key 的 hash → 定位索引 → 检查桶:无元素则直接插入;有元素则遍历链表/树,比较 key(先 hash 后 equals),相同则更新,不同则添加。 - **get(key)**:类似 put,定位索引后遍历链表/树查找匹配 key。 - **resize(扩容)**:当元素数量超过阈值(capacity * loadFactor,默认 0.75)时,数组扩容一倍(如 16→32)。重新计算所有索引($(new\_n-1) \& hash$),元素迁移到新桶。扩容是开销较大的操作,但保证了平均性能。 #### 6. **性能优化和版本差异** - **JDK 1.7 vs JDK 1.8**:1.7 及之前仅使用链表,深度碰撞时性能差;1.8 引入红黑树,显著优化了查询。哈希函数扰动机制在多个版本中保持一致。 - **负载因子(loadFactor)**:默认 0.75,平衡空间和时间开销。值过高(如 1.0)增加碰撞概率;值过低(如 0.5)浪费空间。 - **为什么高效?** 扰动函数和 $(n-1) \& hash$ 计算确保了元素均匀分布,减少了遍历需求。实验显示,在均匀分布下,HashMap 的平均操作时间为常数级[^2][^4]。 #### 总结 HashMap 通过哈希算法扰动、索引定位和冲突处理(链表+树),实现了高效键值存储。扰动函数($h \oplus (h \gg 16)$)是关键创新,它解决了高位哈希差异导致的碰撞问题;而 $(n-1) \& hash$ 提供了快速索引计算。JDK 1.8 的红黑树优化进一步提升了最坏场景性能。理解这些机制有助于编写高性能的 Java 代码(如自定义对象作为 key 时,需正确覆盖 hashCode() 和 equals())。
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值