JDK 8 HashSet 源码详解(完整版带详细注释)

JDK 8 HashSet 源码详解(完整版带详细注释)

1. 基本结构和常量定义

public class HashSet<E>
    extends AbstractSet<E>
    implements Set<E>, Cloneable, java.io.Serializable {
    
    // 序列化版本号
    static final long serialVersionUID = -5024744406713321676L;
    
    // 底层使用HashMap存储元素,key为HashSet的元素,value为PRESENT对象
    private transient HashMap<E,Object> map;
    
    // HashMap中value的占位符对象,所有元素都使用这个相同的值
    private static final Object PRESENT = new Object();
}

2. 构造函数

/**
 * 无参构造函数
 * 构造一个空的HashSet,默认初始容量为16,负载因子为0.75
 */
public HashSet() {
    map = new HashMap<>();
}

/**
 * 指定初始容量的构造函数
 * @param initialCapacity 初始容量
 */
public HashSet(int initialCapacity) {
    map = new HashMap<>(initialCapacity);
}

/**
 * 指定初始容量和负载因子的构造函数
 * @param initialCapacity 初始容量
 * @param loadFactor 负载因子
 */
public HashSet(int initialCapacity, float loadFactor) {
    map = new HashMap<>(initialCapacity, loadFactor);
}

/**
 * 从集合构造HashSet
 * @param c 要构造HashSet的集合
 * @throws NullPointerException 如果集合为null
 */
public HashSet(Collection<? extends E> c) {
    map = new HashMap<>(Math.max((int) (c.size()/.75f) + 1, 16));
    addAll(c);
}

/**
 * 内部构造函数,用于LinkedHashSet
 * @param initialCapacity 初始容量
 * @param loadFactor 负载因子
 * @param dummy 无意义参数,用于区分构造函数
 */
HashSet(int initialCapacity, float loadFactor, boolean dummy) {
    map = new LinkedHashMap<>(initialCapacity, loadFactor);
}

3. 核心方法实现

3.1 add方法

/**
 * 添加元素到HashSet中
 * @param e 要添加的元素
 * @return 如果元素不存在则添加并返回true,如果元素已存在则返回false
 */
public boolean add(E e) {
    // 调用HashMap的put方法,value始终为PRESENT对象
    // 如果返回null说明是新添加的元素,否则说明元素已存在
    return map.put(e, PRESENT) == null;
}

3.2 remove方法

/**
 * 从HashSet中移除指定元素
 * @param o 要移除的元素
 * @return 如果元素存在并被移除返回true,否则返回false
 */
public boolean remove(Object o) {
    // 调用HashMap的remove方法,如果返回PRESENT说明元素存在并被移除
    return map.remove(o) == PRESENT;
}

3.3 contains方法

/**
 * 判断HashSet是否包含指定元素
 * @param o 要查找的元素
 * @return 如果包含返回true,否则返回false
 */
public boolean contains(Object o) {
    // 调用HashMap的containsKey方法
    return map.containsKey(o);
}

3.4 size和isEmpty方法

/**
 * 返回HashSet中元素的数量
 */
public int size() {
    return map.size();
}

/**
 * 判断HashSet是否为空
 */
public boolean isEmpty() {
    return map.isEmpty();
}

3.5 clear方法

/**
 * 清空HashSet中的所有元素
 */
public void clear() {
    map.clear();
}

4. 迭代器实现

/**
 * 返回迭代器
 */
public Iterator<E> iterator() {
    // 返回HashMap的keySet的迭代器
    return map.keySet().iterator();
}

5. 其他重要方法

5.1 toArray方法

/**
 * 返回包含所有元素的数组
 */
public Object[] toArray() {
    return map.keySet().toArray();
}

/**
 * 返回包含所有元素的指定类型数组
 */
public <T> T[] toArray(T[] a) {
    return map.keySet().toArray(a);
}

5.2 clone方法

/**
 * 克隆方法
 */
@SuppressWarnings("unchecked")
public Object clone() {
    try {
        HashSet<E> newSet = (HashSet<E>) super.clone();
        newSet.map = (HashMap<E, Object>) map.clone();
        return newSet;
    } catch (CloneNotSupportedException e) {
        throw new InternalError(e);
    }
}

5.3 序列化相关方法

/**
 * 序列化写入方法
 */
private void writeObject(java.io.ObjectOutputStream s)
    throws java.io.IOException {
    // 写入默认的序列化信息
    s.defaultWriteObject();

    // 写入HashMap的容量和负载因子
    s.writeInt(map.capacity());
    s.writeFloat(map.loadFactor());

    // 写入元素数量
    s.writeInt(map.size());

    // 依次写入每个元素
    for (E e : map.keySet())
        s.writeObject(e);
}

/**
 * 序列化读取方法
 */
private void readObject(java.io.ObjectInputStream s)
    throws java.io.IOException, ClassNotFoundException {
    // 读取默认的序列化信息
    s.defaultReadObject();

    // 读取HashMap的容量和负载因子
    int capacity = s.readInt();
    if (capacity < 0) {
        throw new InvalidObjectException("Illegal capacity: " +
                                         capacity);
    }

    float loadFactor = s.readFloat();
    if (loadFactor <= 0 || Float.isNaN(loadFactor)) {
        throw new InvalidObjectException("Illegal load factor: " +
                                         loadFactor);
    }

    // 读取元素数量
    int size = s.readInt();
    if (size < 0) {
        throw new InvalidObjectException("Illegal size: " +
                                         size);
    }

    // 创建HashMap
    map = (((HashSet)this) instanceof LinkedHashSet ?
           new LinkedHashMap<E,Object>(capacity, loadFactor) :
           new HashMap<E,Object>(capacity, loadFactor));

    // 读取并添加元素
    for (int i=0; i<size; i++) {
        @SuppressWarnings("unchecked")
        E e = (E) s.readObject();
        map.put(e, PRESENT);
    }
}

5.4 Spliterator方法(Java 8新增)

/**
 * 返回Spliterator(用于并行流操作)
 */
public Spliterator<E> spliterator() {
    return map.keySet().spliterator();
}

6. LinkedHashSet的实现

/**
 * LinkedHashSet是HashSet的子类,保持插入顺序
 */
public class LinkedHashSet<E>
    extends HashSet<E>
    implements Set<E>, Cloneable, java.io.Serializable {
    
    private static final long serialVersionUID = -2851667679971038690L;
    
    /**
     * 无参构造函数
     */
    public LinkedHashSet() {
        super(16, .75f, true);
    }
    
    /**
     * 指定初始容量的构造函数
     */
    public LinkedHashSet(int initialCapacity) {
        super(initialCapacity, .75f, true);
    }
    
    /**
     * 指定初始容量和负载因子的构造函数
     */
    public LinkedHashSet(int initialCapacity, float loadFactor) {
        super(initialCapacity, loadFactor, true);
    }
    
    /**
     * 从集合构造LinkedHashSet
     */
    public LinkedHashSet(Collection<? extends E> c) {
        super(Math.max(2*c.size(), 11), .75f, true);
        addAll(c);
    }
}

7. 总结

7.1 HashSet的特点

  1. 底层实现:基于HashMap实现,元素作为HashMap的key存储
  2. 无序性:不保证元素的插入顺序(LinkedHashSet保持插入顺序)
  3. 唯一性:不允许存储重复元素
  4. 允许null:可以存储一个null元素
  5. 非线程安全:不是线程安全的
  6. 高性能:基本操作(add、remove、contains)平均时间复杂度为O(1)

7.2 时间复杂度分析

  • 添加元素:O(1) 平均情况,O(n) 最坏情况(哈希冲突严重时)
  • 删除元素:O(1) 平均情况,O(n) 最坏情况
  • 查找元素:O(1) 平均情况,O(n) 最坏情况
  • 遍历元素:O(n) - 需要遍历所有元素

7.3 空间复杂度

  • 存储空间:O(n) - n为存储的元素个数
  • 额外空间:HashMap需要额外的存储空间(哈希表、链表/红黑树等)

7.4 HashSet与HashMap的关系

// HashSet内部结构示意图:
// HashSet中的元素e <--> HashMap中的键值对(e, PRESENT)
// 其中PRESENT是一个共享的Object实例

7.5 使用建议

  1. 适用场景

    • 需要去除重复元素
    • 需要快速查找元素是否存在
    • 不关心元素的顺序
    • 需要高性能的集合操作
  2. 不适用场景

    • 需要保持元素的插入顺序(考虑使用LinkedHashSet)
    • 需要对元素进行排序(考虑使用TreeSet)
    • 多线程环境(考虑使用Collections.synchronizedSet()包装)
  3. 性能优化

    • 如果能预估元素数量,使用带初始容量的构造函数
    • 选择合适的负载因子(默认0.75是时间和空间的平衡点)
    • 确保元素的hashCode()和equals()方法正确实现

7.6 关键设计思想

  1. 委托模式:HashSet将大部分操作委托给内部的HashMap实现
  2. 占位符模式:使用固定的PRESENT对象作为HashMap的value
  3. 适配器模式:将Map接口适配为Set接口
  4. 继承复用:LinkedHashSet通过继承HashSet复用大部分代码

HashSet的设计体现了面向对象设计的精髓:简单、高效、易于理解和维护。通过组合HashMap,HashSet获得了优秀的性能表现,同时保持了代码的简洁性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值