HashSet集合

HashSet

特点
  • 允许元素为null
  • 元素不可重复
  • HashSet 实际上是 HashMap (数组+链表+红黑树)
  • 不安全
  • HashSet 不保证元素是有序的,取决于 hash 后,再确定索引的结果

HashSet 底层机制说明

HashSet 的底层实际就是 HashMap,HashMap 实际就是数组 + 链表 + 红黑树的结构。数组的每个索引位置默认存放的是单向链表,如果链表的长度到达了一个临界值就会转为红黑树。

解析
1.初始化HashSet

从源码得知,hashset进行初始化,实际上是初始化了一个hashMap。

/**
  * Constructs a new, empty set; the backing <tt>HashMap</tt> instance has
  * default initial capacity (16) and load factor (0.75).
  */
 public HashSet() {
     map = new HashMap<>();
 }
2.初始化集合后,进行第一次add操作
public boolean add(E e) {
    return map.put(e, PRESENT)==null;
}

 PRESENT 主要起到占位作用,是一个空对象,用来代替 HashMap 中的 value

// Dummy value to associate with an Object in the backing Map
private static final Object PRESENT = new Object();

真正添加结点的操作是在 putVal 中执行的

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}

但在此之前需要先 执行 hash(key),根据元素的hash后的值,获得数组的索引

static final int hash(Object key) {
     int h;
     return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
 }
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                boolean evict) {
     // 定义辅助变量           
     Node<K,V>[] tab; Node<K,V> p; int n, i;
     // 1.如果当前表的引用为空或者是长度为空,则进入扩容方法
     // 2.扩容会根据当前默认的长度16进行扩容,并且根据加载因子(0.75)得到临界值(12)
     // 3.此时hash表的长度为16
     if ((tab = table) == null || (n = tab.length) == 0)
         n = (tab = resize()).length;
     // 1.根据添加元素计算出来的hash值得到的数组的索引(`&`为按位运算符 就是得到两个值的二进制数后每个数进行 `&` 二进制数只有1或者0,进行比较时 1&1=1,1&0=0,0&0=0)
     // 2.如果计算出来的索引值在table表中的值为空,则直接将元素的hash值,key,value添加到表对应的索引处。  
     if ((p = tab[i = (n - 1) & hash]) == null)
         tab[i] = newNode(hash, key, value, null);
     else {
         Node<K,V> e; K k;
         // 如果这个表中的索引对应的元素已存在
         // 1.比较新元素的hash和表中索引的hash是否相等
         // 2.并且 两个对象的key元素是否相等或者是说新元素的key不为空,并且
         // 拿新元素的值(k)和表中存在的值(k)进行equals比较,在这里equals方法
         // 怎样使用,完全由我们来控制,如果重写了equals就是比较对象的值,如果没有重写equals就是比较的对象的地址值
         if (p.hash == hash &&
             ((k = p.key) == key || (key != null && key.equals(k))))
             // 如果两个元素相等,则将数组中索引的对象赋值。
             e = p;
              //不相等判断是链表还是红黑树
             // 如果这个table表中已存在的元素,是一颗红黑树,则使用红黑树的方式进行元素的添加。
         else if (p instanceof TreeNode)
             e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
             // 如果是一个链表
         else {
             for (int binCount = 0; ; ++binCount) { //循环读取链表
             // 如果是一个链表,则进行循环读取,如果这个table索引处的链的节点下一个元素为空
                 if ((e = p.next) == null) {
                 // 如果下一个节点为空,直接将新结点添加到链表的末尾。
                     p.next = newNode(hash, key, value, null);
                     if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                     // 如果链表的节点长度 >=8 
                     // 1.首先回去判断当前table表的长度是否是64,如果不是64
                     // 则会进行table表的扩容(当前容量+当前容量),并且计算出临界值
                     // 2.如果table表中此链表的长度 >=8 并且 table表的长度已经等于64
                     // 则将table表中的这个索引的链表转换成一颗红黑树
                         treeifyBin(tab, hash);
                     break;
                 }
                 // 如果在查询这条链表的过程中,发现链节点的元素的key和新元素的key相等,则不会添加,直接退出
                 if (e.hash == hash &&
                     ((k = e.key) == key || (key != null && key.equals(k))))
                     break;
                // 继续下一个结点
                 p = e;
             }
         }
         // 如果不为空,则说明添加元素失败了。
         if (e != null) { // existing mapping for key
             V oldValue = e.value;
             if (!onlyIfAbsent || oldValue == null)
                 e.value = value;
             afterNodeAccess(e);
             return oldValue;
         }
     }
     ++modCount;
     // 拿添加元素后的次数和 `临界值` 进行比较, 如果大于`临界值`,则再次进行扩容
     if (++size > threshold)
         resize();
     afterNodeInsertion(evict);
     return null;
 }
final void treeifyBin(Node<K,V>[] tab, int hash) {
    // 定义辅助变量
    int n, index; Node<K,V> e;
    // 判断数组是否为空,或者数组长度小于一个临界值(64)
    if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
        // 进行数组扩容,而不是转成红黑树
        resize();
    else if ((e = tab[index = (n - 1) & hash]) != null) {
    	// 转红黑树的代码
   TreeNode<K,V> hd = null, tl = null;
            do {
                TreeNode<K,V> p = replacementTreeNode(e, null);
                if (tl == null)
                    hd = p;
                else {
                    p.prev = tl;
                    tl.next = p;
                }
                tl = p;
            } while ((e = e.next) != null);
            if ((tab[index] = hd) != null)
                hd.treeify(tab);
    }
}

判断元素是否已经存在,是否需要进行扩容,是否是红黑树结构,是否是链表

   if ((tab = table) == null || (n = tab.length) == 0) 
         n = (tab = resize()).length;

  1.   如果当前表的引用为空或者是长度为空,则进入扩容方法
  2.   扩容会根据当前默认的长度16进行扩容,并且根据加载因子(0.75)得到临界值(12)
  3.   此时hash表的长度为16
final Node<K,V>[] resize() {
    // 定义辅助变量
    Node<K,V>[] oldTab = table;
    // 旧数组长度 0
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    // 旧临界值
    int oldThr = threshold;
    // 新的数组长度和临界值
    int newCap, newThr = 0;
    // 不满足条件
    if (oldCap > 0) {
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr << 1; // double threshold
    }
	// 不满足条件
    else if (oldThr > 0) // initial capacity was placed in threshold
        newCap = oldThr;
    // 第一次扩容
    else {               // zero initial threshold signifies using defaults
        // 新的数组长度默认为 16
        newCap = DEFAULT_INITIAL_CAPACITY;
        // 新的临界值默认为 12
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    // 不满足条件
    if (newThr == 0) {
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    // 改变为新的临界值
    threshold = newThr;
    @SuppressWarnings({"rawtypes","unchecked"})
	// 定义新的数组
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    // 改变数组
    table = newTab;
    // 旧数组为空,不满足条件
    if (oldTab != null) {
        // 省略一大堆代码
    }
    // 返回新的数组
    return newTab;
}

     if ((p = tab[i = (n - 1) & hash]) == null)
         tab[i] = newNode(hash, key, value, null);

  1.    根据添加元素计算出来的hash值得到的数组的索引(`&`为按位运算符 就是得到两个值的二进制数后每个数进行 `&` 二进制数只有1或者0,进行比较时 1&1=1,1&0=0,0&0=0)
  2.    如果计算出来的索引值在table表中的值为空,则直接将元素的hash值,key,value添加到表对应的索引处。(代表当前HashSet的索引值中没有当前新节点索引,直接添加)

         if (p.hash == hash &&
             ((k = p.key) == key || (key != null && key.equals(k))))

如果这个表中的索引对应的元素已存在

  1.  比较新元素的hash和表中索引的hash是否相等
  2.  并且 两个对象的key元素是否相等或者是说新元素的key不为空,并且拿新元素的值(k)和表中存在的值(k)进行equals比较,在这里equals方法

怎样使用,完全由我们来控制,如果重写了equals就是比较对象的值,如果没有重写equals就是比较的对象的地址值

3. table 数组扩容机制
final Node<K,V>[] resize() {
    // 定义辅助变量
    Node<K,V>[] oldTab = table;
    // 旧数组长度 0
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    // 旧临界值
    int oldThr = threshold;
    // 新的数组长度和临界值
    int newCap, newThr = 0;
    // 第 n 此扩容,n > 1
    if (oldCap > 0) {
        // 判断旧数组长度是否大于最大值
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        // 新数组长度扩大两倍
    	// 并判断新数组长度是否 < 最大值,同时旧数组长度是否 >= 初始长度(16)
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            // 新数组长度临界值扩大两倍
            newThr = oldThr << 1; // double threshold
    }
	// 判断旧数组长度临界值是否 > 0
    else if (oldThr > 0) // initial capacity was placed in threshold
        // 新数组长度为旧数组长度临界值
        // oldCap 为 0,因为如果 > 0 就走第一个条件了
        newCap = oldThr;
    // 第一次扩容
    else {               // zero initial threshold signifies using defaults
        // 新的数组长度默认为 16
        newCap = DEFAULT_INITIAL_CAPACITY;
        // 新的临界值默认为 12
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    // 判断是否新临界值为 0
    if (newThr == 0) {
        // 将新数组大小的 0.75 倍赋值给 ft
        // 初始化 HashMap 时就指定了 loadFactor 为默认临界因子(0.75f)
        float ft = (float)newCap * loadFactor;
        // 如果新的数组大小 < 最大长度,并且 ft < 最大长度,新的数组长度临界值就为 ft
        // 否则为整数的最大值
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    // 改变为新的临界值
    threshold = newThr;
    @SuppressWarnings({"rawtypes","unchecked"})
	// 定义新的数组
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    // 改变数组
    table = newTab;
    // 判断旧数组是否为空
    if (oldTab != null) {
        // 按照新的数组长度创建新的数组
        // 并遍历旧数组,将旧数组上的结点一个一个移动到新数组上
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e; // 定义辅助变量
            // 判断当前索引位置是否为空
            if ((e = oldTab[j]) != null) {
                // 设置旧数组该索引处为空
                oldTab[j] = null;
                // 判断是否有下一个结点
                if (e.next == null)
                    // 没有下一个结点就直接将该结点移动到新数组上
                    // 注意:索引是由数组长度和 hash 值共同决定的
                    // 此时计算索引用的是新数组的长度,结果可能会与旧数组的索引不同
                    newTab[e.hash & (newCap - 1)] = e;
                // 判断该索引位置是不是一个红黑树
                else if (e instanceof TreeNode)
                    // 移动树上的结点
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                // 该索引位置是一个链表
                else { // preserve order
                    // 定义 lowHead,lowTail,表示低位链表的头结点和尾节点
                    Node<K,V> loHead = null, loTail = null;
                    // 定义 hightHead,hightTail,表示高位链表的头结点和尾节点
                    // 低位链表和高位链表里的位,表示的是数组索引位
                    // 由于数组长度的增加,新数组的索引位置可能不变,也可能变大
                    // 如果不变,就用低位链表;如果变大,就用高位链表
                    Node<K,V> hiHead = null, hiTail = null;
                    Node<K,V> next; // 定义下一个结点
                    do {
                        // 获取下一个结点
                        next = e.next;
                        // 计算新新数组的索引位是否不变
                        if ((e.hash & oldCap) == 0) {
                            // 判断当前结点是否是头结点
                            // 因为最开始定义 loTail 为 null
                            // 而如果添加了一个结点后,loTail 就会指新的结点,不为 null
                            if (loTail == null)
                                // 将当前结点赋值给头结点
                                loHead = e;
                        	// 当前结点不是头结点
                            else
                                // 将当前结点添加到最后
                                loTail.next = e;
                            // 尾节点指向最后的新结点
                            loTail = e;
                        }
                        // 新数组的索引位变大,使用高位链表
                        else {
                            // 和上面的低位链表一样的操作
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    // 继续下一个结点
                    } while ((e = next) != null);
                    // 判断低位链表是否为非空链表
                    if (loTail != null) {
                        loTail.next = null;
                        // 移动到新数组上的索引不变
                        newTab[j] = loHead;
                    }
                    // 判断高位链表是否为非空链表
                    if (hiTail != null) {
                        hiTail.next = null;
                        // 移动到新数组上的索引变大,相差一个旧数组的长度
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    // 返回新的数组
    return newTab;
}

### Java `HashSet` 底层实现原理 #### 数据结构与内部机制 Java 中的 `HashSet` 是基于哈希表(Hash Table)的数据结构来存储元素。具体来说,`HashSet` 的底层是由 `HashMap` 实现的[^1]。 当创建一个新的 `HashSet` 对象时,实际上是在背后初始化了一个 `HashMap` 来保存所有的元素。在这个过程中,`HashSet` 使用对象作为键而对应的值是一个静态的对象实例 `PRESENT` (通常定义为 `private static final Object PRESENT = new Object()`) 。因此,在向 `HashSet` 添加元素的时候,实际上是调用了 `HashMap` 的 `put(key, value)` 方法[^2]。 对于给定的例子: ```java public class HashSet_Type { public static void main(String[] args) { HashSet<String> hashSet = new HashSet<>(); hashSet.add("java"); hashSet.add("php"); hashSet.add("java"); System.out.println(hashSet); //[java, php] } } ``` 这段代码展示了如何使用 `HashSet` 并尝试添加重复项 `"java"` ,但由于 `HashSet` 不允许有重复元素,所以最终只保留了一份 `"java"` 和另一份不同的字符串 `"php"` 。 #### 哈希冲突处理方式 由于多个不同对象可能具有相同的哈希码,这就会引发所谓的“哈希碰撞”。为了应对这种情况,`HashMap` (进而影响到 `HashSet`)采用了链地址法(Separate Chaining),即在发生哈希冲突的位置上构建一个单向链表或者红黑树(当桶中的节点数量超过一定阈值时会自动转换成红黑树以提高查找效率)。这意味着即使两个或更多对象映射到了同一个位置,它们仍然可以被正确地区分并存取[^3]。 #### 初始化容量和加载因子 `HashSet` 构造函数接受可选参数用于指定初始容量以及负载因子。这些设置决定了何时应该扩展底层数组大小以保持性能最优。默认情况下,如果未提供特定配置,则采用的是 `0.75f` 的装载因子和 `16` 的起始容量。这种设计是为了平衡时间和空间复杂度之间的关系,使得大多数操作都能接近 O(1),但在最坏的情况下可能会退化至 O(n)。 ```python def __init__(self, initial_capacity=16, load_factor=0.75): self.capacity = initial_capacity self.load_factor = load_factor ... ``` 请注意上述 Python 伪代码仅用来示意,并不是实际 Java 源码的一部分。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值