HashSet源码分析_java模拟hashset数组+链表-优快云博客

package idea.chapter14.set_;

import java.util.HashSet;

@SuppressWarnings({"all"})
public class HashSet01 {
    public static void main(String[] args) {
        HashSet set = new HashSet();

        //说明
        //1. 在执行add方法后，会返回一个boolean值
        //2. 如果添加成功，返回 true, 否则返回false
        //3. 可以通过 remove 指定删除哪个对象
        System.out.println(set.add("john"));//T
        System.out.println(set.add("lucy"));//T
        System.out.println(set.add("john"));//F
        System.out.println(set.add("jack"));//T
        System.out.println(set.add("Rose"));//T

        set.remove("john");
        //在删除了John后只会输出3个元素，因为我们在添加元素的时候，加入了两个相同的元素，所以后面加入的John会加入失败，当我们删除John后，实际剩下的元素也就只有三个了
        System.out.println("set=" + set);//3个

        //
        set  = new HashSet();
        System.out.println("set=" + set);//0
        //4 Hashset 不能添加相同的元素/数据?
        set.add("lucy");//添加成功
        set.add("lucy");//加入不了
        
        //因为这里我们是new了一个对象 在堆中创建了，两个Dog对象，只不过两个对象的名字相同，但是他们的地址是不相同的，所以可以加入成功，并且Dog类没有重写equals方法，默认使用的是Object的equals方法
        //而，Object的equals方法默认判断的是，两个对象的地址是否相同，所以可以加入
        set.add(new Dog("tom"));//OK
        set.add(new Dog("tom"));//Ok
        System.out.println("set=" + set);

        //在加深一下. 非常经典的面试题.
        //看源码，做分析， 先给小伙伴留一个坑，以后讲完源码，你就了然
        //去看他的源码，即 add 到底发生了什么?=> 底层机制.
        //因为String重写了HashCode方法，是根据内容来确定Hash值，他们的内容相同，所以在底层源码进行判断的时候，会判断当前对象的hash 和传入进来的hash值 是否相同
        //或者是 判断当前的值，和传入进来的值，是否相同
        set.add(new String("jack"));//ok
        set.add(new String("jack"));//加入不了.
        System.out.println("set=" + set);


    }
}
class Dog { //定义了Dog类
    private String name;

    public Dog(String name) {
        this.name = name;
    }

    @Override
    public String toString() {
        return "Dog{" +
                "name='" + name + '\'' +
                '}';
    }
}

Set接口和常用方法

和List接口一样，Set接口也是Collection的子接口，因此，常用方法和Collection接口一样. Set接口的遍历方式

同Collection的遍历方式一样，因为Set接口是Collection接口的子接口。

1.可以使用迭代器

2.增强for

3.不能使用索引的方式来获取.

代码演示：

注意：

1.set接口不能加入重复的数据

2.并且取出的顺序也是无序的，但是后面在重复的取出他的顺序还是会和第一次取出的顺序保持一致

package idea.chapter14.set_;

import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;

@SuppressWarnings({"all"})
public class SetMethod {
    public static void main(String[] args) {

        //1. 以Set 接口的实现类 HashSet 来讲解Set 接口的方法
        //2. set 接口的实现类的对象(Set接口对象), 不能存放重复的元素, 可以添加一个null
        //3. set 接口对象存放数据是无序(即添加的顺序和取出的顺序不一致)
        //4. 注意：取出的顺序的顺序虽然不是添加的顺序，但是他的固定.
        Set set = new HashSet();
        set.add("john");
        set.add("lucy");
        set.add("john");//重复
        set.add("jack");
        set.add("mary");
        set.add(null);//
        set.add(null);//再次添加null
        for (int i = 0; i < 10; i++) {
            System.out.println("set=" + set);
        }

        //遍历
        //方式1： 使用迭代器
        System.out.println("=====使用迭代器====");
        Iterator iterator = set.iterator();
        while (iterator.hasNext()) {
            Object obj = iterator.next();
            System.out.println("obj=" + obj);

        }

        //删除指定的元素
        set.remove(null);

        //方式2: 增强for
        System.out.println("=====增强for====");
        //增强for循环底层使用的还是迭代器
        for (Object o : set) {
            System.out.println("o=" + o);
        }

        //set 接口对象，不能通过索引来获取
        //因为set接口中没有提供get方法
    }
}

HashSet模拟简单数组+链表

HashSet底层机制说明

分析HashSet底层是HashMap,HashMap底层是(数组+链表+红黑树)

HashSetStructure.java为了让大家真正理解，模拟简单的数组+链表结构

代码演示：

package idea.chapter14.set_;

/**
 * 模拟HashSet的底层 数组+链表+红黑树
 */
@SuppressWarnings({"all"})
public class HashSetStructure {
    public static void main(String[] args) {
        //模拟一个HashSet的底层 (HashMap 的底层结构)

        //1. 创建一个数组，数组的类型是 Node[]
        //2. 有些人，直接把 Node[] 数组称为 表
        Node[] table = new Node[16];

        //3. 创建结点
        Node john = new Node("john", null);

        table[2] = john;
        Node jack = new Node("jack", null);
        john.next = jack;// 将jack 结点挂载到john
        Node rose = new Node("Rose", null);
        jack.next = rose;// 将rose 结点挂载到jack

        Node lucy = new Node("lucy", null);
        table[3] = lucy; // 把lucy 放到 table表的索引为3的位置.
        System.out.println("table=" + table);


    }
}

class Node { //结点, 存储数据, 可以指向下一个结点，从而形成链表
    Object item; //存放数据
    Node next; // 指向下一个结点

    public Node(Object item, Node next) {
        this.item = item;
        this.next = next;
    }
}

HashSet源码分析

HashSet底层机制说明

分析HashSet的添加元素底层是如何实现（hash()+equals())

结论

1.HashSet 底层是 HashMap

2.添加一个元素时，先得到hash值 -会转成->索引值

3.找到存储数据表table，看这个索引位置是否已经存放的有元素

4.如果没有，直接加入

5.如果有，调用equals比较，如果相同，就放弃添加，如果不相同,则添加到最后

6.在Java8中，如果一条链表的元素个数超过TREEIFY THRESHOLD(默认是8），并且table的大小>= MIN_TREEIFY_CAPACITY(默认64), 就会进行树化（红黑树）

源码分析：

/*
对HashSet 的源码解读
1. 执行 HashSet()
    public HashSet() {
        map = new HashMap<>();
    }
2. 执行 add()
   public boolean add(E e) {//e = "java"
        //这里的PRESENT 是一个空对象数组，起到占位符作用
        return map.put(e, PRESENT)==null;//(static) PRESENT = new Object();
   }
 3.执行 put() , 该方法会执行 hash(key) 得到key对应的hash值 算法h = key.hashCode()) ^ (h >>> 16)
   根据我们传入进来的值，去计算hash值，在Table中存放的位置
     public V put(K key, V value) {//key = "java" value = PRESENT 共享
        return putVal(hash(key), key, value, false, true);
    }
 4.执行 putVal
 final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
           boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i; //定义了辅助变量
        //table 就是 HashMap 的一个数组，类型是 Node[]

        //if 语句表示如果当前table 是null, 或者 大小=0
        //就会进行第一次扩容，到16个空间.
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;

        //(1)根据key，得到hash 去计算该key应该存放到table表的哪个索引位置
        //并把这个位置的对象，赋给 p
        //(2)判断p 是否为null
        //(2.1) 如果p 为null, 表示还没有存放元素, 就创建一个Node (key="java",value=PRESENT)
        //(2.2) 就放在该位置 tab[i] = newNode(hash, key, value, null) 就是直接存放进去

        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
            //一个开发技巧提示： 在需要局部变量(辅助变量)时候，在创建
            Node<K,V> e; K k; //

            //当进入else的时候，就说明我们当前计算出来的Hash值在数组中的位置已经存在了 ，那么就先进行判断
            //如果当前索引位置对应的链表的第一个元素的hash值和准备添加的key的hash值一样
            //并且满足 下面两个条件之一:

            //(1) 准备加入的keyhash值 和 p 指向的Node 结点的hash值相同，那就说明是是同一个对象
            //(2)  当前的key对象 或者和我们传入对象的地址相同，因为==在判断引用类型的时候，判断的是地址是否相同，如果地址相同，或者他们的内容相同
            //就不能加入     如果不能加入就把p赋给e

            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;

            //再判断 p 是不是一颗红黑树,
            //如果是一颗红黑树，就调用 putTreeVal , 来进行添加
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);

                //如果上面的情况都不是的话，那么就说明，此时这个索引对应的位置是一个链表了
            else {//如果table对应索引位置，已经是一个链表, 就使用for循环比较
                  //(1) 依次和该链表的每一个元素比较后，都不相同, 则加入到该链表的最后
                  //    注意在把元素添加到链表后，立即判断 该链表是否已经达到8个结点
                  //    , 就调用 treeifyBin() 对当前这个链表进行树化(转成红黑树)
                  //    注意，在转成红黑树时，要进行判断, 判断条件
                  //    if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY(64))
                  //            resize();
                  //    如果上面条件成立，先table扩容.
                  //    只有上面条件不成立时，才进行转成红黑树
                  //(2) 依次和该链表的每一个元素比较过程中，如果有相同情况,就直接break


                //这是一个死循环，会一直进行 比较，只有两种情况，才会退出循环
                //第一种：当数组中的其中一条列表的长度到达了7，准备进行树化的时候
                //第二种：就是发现我们加入的元素，在这个列表中发现了重复的，也会直接跳出循环
                for (int binCount = 0; ; ++binCount) {
                        这里e=p.next 因为我们在最开始上面的时候，已经对第一个元素进行了判断，所以这里直接从下一个元素开始判断
                        如果下一个元素为空，那么就直接加入
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        加入完一个元素之后，马上的进行判断，当前列表的个数有几个，是否进行树化
                        if (binCount >= TREEIFY_THRESHOLD(8) - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    //这里就是，在循环比较的过程中，如果发现有相同的内容，那么会直接break
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;

                       //这里就是让p 指向下一个
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        //size 就是我们每加入一个结点Node(k,v,h,next), size++
        if (++size > threshold)
            resize();//扩容
        afterNodeInsertion(evict);
        return null;
    }
 */

package idea.chapter14.set_;

import java.util.HashSet;

/**
 * HashSet源码分析
 */
@SuppressWarnings({"all"})
public class HashSetSource {
    public static void main(String[] args) {

        HashSet hashSet = new HashSet();
        hashSet.add("java");//到此位置，第1次add分析完毕.
        hashSet.add("php");//到此位置，第2次add分析完毕
        hashSet.add("java");
        System.out.println("set=" + hashSet);

        /*
        对HashSet 的源码解读
        1. 执行 HashSet()
            public HashSet() {
                map = new HashMap<>();
            }
        2. 执行 add()
           public boolean add(E e) {//e = "java"
                //这里的PRESENT 是一个空对象数组，起到占位符作用
                return map.put(e, PRESENT)==null;//(static) PRESENT = new Object();
           }
         3.执行 put() , 该方法会执行 hash(key) 得到key对应的hash值 算法h = key.hashCode()) ^ (h >>> 16)
           根据我们传入进来的值，去计算hash值，在Table中存放的位置
             public V put(K key, V value) {//key = "java" value = PRESENT 共享
                return putVal(hash(key), key, value, false, true);
            }
         4.执行 putVal
         final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
                Node<K,V>[] tab; Node<K,V> p; int n, i; //定义了辅助变量
                //table 就是 HashMap 的一个数组，类型是 Node[]
                
                //if 语句表示如果当前table 是null, 或者 大小=0
                //就会进行第一次扩容，到16个空间.
                if ((tab = table) == null || (n = tab.length) == 0)
                    n = (tab = resize()).length;

                //(1)根据key，得到hash 去计算该key应该存放到table表的哪个索引位置
                //并把这个位置的对象，赋给 p
                //(2)判断p 是否为null
                //(2.1) 如果p 为null, 表示还没有存放元素, 就创建一个Node (key="java",value=PRESENT)
                //(2.2) 就放在该位置 tab[i] = newNode(hash, key, value, null) 就是直接存放进去

                if ((p = tab[i = (n - 1) & hash]) == null)
                    tab[i] = newNode(hash, key, value, null);
                else {
                    //一个开发技巧提示： 在需要局部变量(辅助变量)时候，在创建
                    Node<K,V> e; K k; //
                    
                    //当进入else的时候，就说明我们当前计算出来的Hash值在数组中的位置已经存在了 ，那么就先进行判断
                    //如果当前索引位置对应的链表的第一个元素的hash值和准备添加的key的hash值一样
                    //并且满足 下面两个条件之一:
                    
                    //(1) 准备加入的keyhash值 和 p 指向的Node 结点的hash值相同，那就说明是是同一个对象    
                    //(2)  当前的key对象 或者和我们传入对象的地址相同，因为==在判断引用类型的时候，判断的是地址是否相同，如果地址相同，或者他们的内容相同
                    //就不能加入     如果不能加入就把p赋给e
                    
                    if (p.hash == hash &&
                        ((k = p.key) == key || (key != null && key.equals(k))))
                        e = p;
                        
                    //再判断 p 是不是一颗红黑树,
                    //如果是一颗红黑树，就调用 putTreeVal , 来进行添加
                    else if (p instanceof TreeNode)
                        e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
                        
                        //如果上面的情况都不是的话，那么就说明，此时这个索引对应的位置是一个链表了
                    else {//如果table对应索引位置，已经是一个链表, 就使用for循环比较
                          //(1) 依次和该链表的每一个元素比较后，都不相同, 则加入到该链表的最后
                          //    注意在把元素添加到链表后，立即判断 该链表是否已经达到8个结点
                          //    , 就调用 treeifyBin() 对当前这个链表进行树化(转成红黑树)
                          //    注意，在转成红黑树时，要进行判断, 判断条件
                          //    if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY(64))
                          //            resize();
                          //    如果上面条件成立，先table扩容.
                          //    只有上面条件不成立时，才进行转成红黑树
                          //(2) 依次和该链表的每一个元素比较过程中，如果有相同情况,就直接break


                        //这是一个死循环，会一直进行 比较，只有两种情况，才会退出循环
                        //第一种：当数组中的其中一条列表的长度到达了7，准备进行树化的时候
                        //第二种：就是发现我们加入的元素，在这个列表中发现了重复的，也会直接跳出循环
                        for (int binCount = 0; ; ++binCount) {
                                这里e=p.next 因为我们在最开始上面的时候，已经对第一个元素进行了判断，所以这里直接从下一个元素开始判断
                                如果下一个元素为空，那么就直接加入
                            if ((e = p.next) == null) {
                                p.next = newNode(hash, key, value, null);
                                加入完一个元素之后，马上的进行判断，当前列表的个数有几个，是否进行树化
                                if (binCount >= TREEIFY_THRESHOLD(8) - 1) // -1 for 1st
                                    treeifyBin(tab, hash);
                                break;
                            }
                            //这里就是，在循环比较的过程中，如果发现有相同的内容，那么会直接break
                            if (e.hash == hash &&
                                ((k = e.key) == key || (key != null && key.equals(k))))
                                break;
                               
                               //这里就是让p 指向下一个
                            p = e;
                        }
                    }
                    if (e != null) { // existing mapping for key
                        V oldValue = e.value;
                        if (!onlyIfAbsent || oldValue == null)
                            e.value = value;
                        afterNodeAccess(e);
                        return oldValue;
                    }
                }
                ++modCount;
                //size 就是我们每加入一个结点Node(k,v,h,next), size++
                if (++size > threshold)
                    resize();//扩容
                afterNodeInsertion(evict);
                return null;
            }
         */

    }
}

HashSet的扩容和转成红黑树机制

HashSet底层机制说明分析HashSet的扩容和转成红黑树机制 HashSetIncrement.java先说结论，

结论

1.HashSet底层是HashMap，第一次添加时，table数组扩容到16，临界值 (threshold）是16 乘加载因子(loadFactor)是0.75=12

2.如果table 数组使用到了临界值12，就会扩容到16乘2=32，新的临界值就是 32*0.75=24，依次类推

3.在Java8中，如果一条链表的元素个数到达TREEIFY THRESHOLD(默认是8)，并且table的大小>= MIN TREEIFY CAPACITY(默认64)，就会进行树化（红黑树），否则仍然采用数组扩容机制否则以链表的方式添加。

代码演示：

注意：只有两数组的长度超过64，并且链表的长度大于8，两个条件同时满足，才会进行树化，如果只有其他一个条件满足，比如只有链表的长度大于8，那么不会树化，会先对table数组进行扩容，只有两个条件同时满足的时候，才会进行树化

package idea.chapter14.set_;

import java.util.HashSet;

@SuppressWarnings({"all"})
public class HashSetIncrement {
    public static void main(String[] args) {
        /*
        HashSet底层是HashMap, 第一次添加时，table 数组扩容到 16，
        临界值(threshold)是 16*加载因子(loadFactor)是0.75 = 12
        如果table 数组使用到了临界值 12,就会扩容到 16 * 2 = 32,
        新的临界值就是 32*0.75 = 24, 依次类推

         */
        HashSet hashSet = new HashSet();
//        for(int i = 1; i <= 100; i++) {
//            hashSet.add(i);//1,2,3,4,5...100
//        }
        /*
        在Java8中, 如果一条链表的元素个数到达 TREEIFY_THRESHOLD(默认是 8 )，
        并且table的大小 >= MIN_TREEIFY_CAPACITY(默认64),就会进行树化(红黑树),
        否则仍然采用数组扩容机制

         */

//        for(int i = 1; i <= 12; i++) {
//            hashSet.add(new A(i));//
//        }


        /*
            当我们向hashset增加一个元素，-> Node -> 加入table , 就算是增加了一个size++

         */

        for (int i = 1; i <= 7; i++) {//在table的某一条链表上添加了 7个A对象
            hashSet.add(new A(i));//
        }

        for (int i = 1; i <= 7; i++) {//在table的另外一条链表上添加了 7个B对象
            hashSet.add(new B(i));//
        }


    }
}

class B {
    private int n;

    public B(int n) {
        this.n = n;
    }

    @Override
    public int hashCode() {
        return 200;
    }
}

class A {
    private int n;

    public A(int n) {
        this.n = n;
    }

    @Override
    public int hashCode() {
        return 100;
    }
}

HashSet练习

第一题

代码演示：

这里我们自己重写了equals方法和hashCode方法，是按照我们自己的逻辑来判断，是否重复

package idea.chapter14.set_;

import java.util.HashSet;
import java.util.Objects;

/*
定义一个Employee类，该类包含：private成员属性name，age要求：
1.创建3个Employee 对象放入HashSet中
2.当name和age的值相同时，认为是相同员工，不能添加到HashSet集合中
 */
@SuppressWarnings({"all"})
public class HashSetExercise01 {
    public static void main(String[] args) {
        HashSet hashSet = new HashSet();
        hashSet.add(new Employee("jack", 10));
        hashSet.add(new Employee("tom", 20));
        hashSet.add(new Employee("jack", 10));

        System.out.println(hashSet);
    }
}


class Employee {
    private String name;
    private int age;

    public Employee(String name, int age) {
        this.name = name;
        this.age = age;
    }

    @Override
    public String toString() {
        return "Employee{" +
                "name='" + name + '\'' +
                ", age=" + age +
                '}';
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        Employee employee = (Employee) o;
        return age == employee.age && Objects.equals(name, employee.name);
    }

    @Override
    public int hashCode() {
        return Objects.hash(name, age);
    }
}

第二题

代码演示：

package idea.chapter14.set_;

import java.util.HashSet;
import java.util.Objects;

/*
定义一个Employee1类，该类包含：private成员属性name，sal，birthday(MyDate类
型)，其中birthday为MyDate类型(属性包括：year，month，day)，要求：
1.创建3个Employee1放入 HashSet中
2.当name和birthday的值相同时，认为是相同员工，不能添加到HashSet集合中
 */
@SuppressWarnings({"all"})
public class HashSetExercise02 {
    public static void main(String[] args) {
        HashSet hashSet = new HashSet();
        hashSet.add(new Employee1("jack", 12, new MyDate(2022, 12, 12)));
        hashSet.add(new Employee1("jack", 12, new MyDate(2011, 1, 1)));
        hashSet.add(new Employee1("jack", 12, new MyDate(2022, 12, 12)));
        System.out.println(hashSet);
    }
}

class Employee1 {
    private String name;
    private double sal;
    private MyDate birthday;

    public Employee1(String name, double sal, MyDate birthday) {
        this.name = name;
        this.sal = sal;
        this.birthday = birthday;
    }

    @Override
    public String toString() {
        return "Employee1{" +
                "name='" + name + '\'' +
                ", sal=" + sal +
                ", birthday=" + birthday +
                '}';
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        Employee1 employee1 = (Employee1) o;
        return Double.compare(employee1.sal, sal) == 0 && Objects.equals(name, employee1.name) && Objects.equals(birthday, employee1.birthday);
    }

    @Override
    public int hashCode() {
        return Objects.hash(name, sal, birthday);
    }
}


class MyDate {
    private int year;
    private int month;
    private int day;

    public MyDate(int year, int month, int day) {
        this.year = year;
        this.month = month;
        this.day = day;
    }


    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        MyDate myDate = (MyDate) o;
        return year == myDate.year && month == myDate.month && day == myDate.day;
    }

    @Override
    public int hashCode() {
        return Objects.hash(year, month, day);
    }

    @Override
    public String toString() {
        return "MyDate{" +
                "year=" + year +
                ", month=" + month +
                ", day=" + day +
                '}';
    }
}