JDK 8 HashSet 源码详解（完整版带详细注释）

最新推荐文章于 2025-11-24 21:21:07 发布

原创最新推荐文章于 2025-11-24 21:21:07 发布 · 606 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#java #开发语言 #HashSet

源码学习同时被 2 个专栏收录

118 篇文章

订阅专栏

JAVA

28 篇文章

订阅专栏

JDK 8 HashSet 源码详解（完整版带详细注释）

1. 基本结构和常量定义

public class HashSet<E>
    extends AbstractSet<E>
    implements Set<E>, Cloneable, java.io.Serializable {
    
    // 序列化版本号
    static final long serialVersionUID = -5024744406713321676L;
    
    // 底层使用HashMap存储元素，key为HashSet的元素，value为PRESENT对象
    private transient HashMap<E,Object> map;
    
    // HashMap中value的占位符对象，所有元素都使用这个相同的值
    private static final Object PRESENT = new Object();
}

2. 构造函数

/**
 * 无参构造函数
 * 构造一个空的HashSet，默认初始容量为16，负载因子为0.75
 */
public HashSet() {
    map = new HashMap<>();
}

/**
 * 指定初始容量的构造函数
 * @param initialCapacity 初始容量
 */
public HashSet(int initialCapacity) {
    map = new HashMap<>(initialCapacity);
}

/**
 * 指定初始容量和负载因子的构造函数
 * @param initialCapacity 初始容量
 * @param loadFactor 负载因子
 */
public HashSet(int initialCapacity, float loadFactor) {
    map = new HashMap<>(initialCapacity, loadFactor);
}

/**
 * 从集合构造HashSet
 * @param c 要构造HashSet的集合
 * @throws NullPointerException 如果集合为null
 */
public HashSet(Collection<? extends E> c) {
    map = new HashMap<>(Math.max((int) (c.size()/.75f) + 1, 16));
    addAll(c);
}

/**
 * 内部构造函数，用于LinkedHashSet
 * @param initialCapacity 初始容量
 * @param loadFactor 负载因子
 * @param dummy 无意义参数，用于区分构造函数
 */
HashSet(int initialCapacity, float loadFactor, boolean dummy) {
    map = new LinkedHashMap<>(initialCapacity, loadFactor);
}

3. 核心方法实现

3.1 add方法

/**
 * 添加元素到HashSet中
 * @param e 要添加的元素
 * @return 如果元素不存在则添加并返回true，如果元素已存在则返回false
 */
public boolean add(E e) {
    // 调用HashMap的put方法，value始终为PRESENT对象
    // 如果返回null说明是新添加的元素，否则说明元素已存在
    return map.put(e, PRESENT) == null;
}

3.2 remove方法

/**
 * 从HashSet中移除指定元素
 * @param o 要移除的元素
 * @return 如果元素存在并被移除返回true，否则返回false
 */
public boolean remove(Object o) {
    // 调用HashMap的remove方法，如果返回PRESENT说明元素存在并被移除
    return map.remove(o) == PRESENT;
}

3.3 contains方法

/**
 * 判断HashSet是否包含指定元素
 * @param o 要查找的元素
 * @return 如果包含返回true，否则返回false
 */
public boolean contains(Object o) {
    // 调用HashMap的containsKey方法
    return map.containsKey(o);
}

3.4 size和isEmpty方法

/**
 * 返回HashSet中元素的数量
 */
public int size() {
    return map.size();
}

/**
 * 判断HashSet是否为空
 */
public boolean isEmpty() {
    return map.isEmpty();
}

3.5 clear方法

/**
 * 清空HashSet中的所有元素
 */
public void clear() {
    map.clear();
}

4. 迭代器实现

/**
 * 返回迭代器
 */
public Iterator<E> iterator() {
    // 返回HashMap的keySet的迭代器
    return map.keySet().iterator();
}

5. 其他重要方法

5.1 toArray方法

/**
 * 返回包含所有元素的数组
 */
public Object[] toArray() {
    return map.keySet().toArray();
}

/**
 * 返回包含所有元素的指定类型数组
 */
public <T> T[] toArray(T[] a) {
    return map.keySet().toArray(a);
}

5.2 clone方法

/**
 * 克隆方法
 */
@SuppressWarnings("unchecked")
public Object clone() {
    try {
        HashSet<E> newSet = (HashSet<E>) super.clone();
        newSet.map = (HashMap<E, Object>) map.clone();
        return newSet;
    } catch (CloneNotSupportedException e) {
        throw new InternalError(e);
    }
}

5.3 序列化相关方法

/**
 * 序列化写入方法
 */
private void writeObject(java.io.ObjectOutputStream s)
    throws java.io.IOException {
    // 写入默认的序列化信息
    s.defaultWriteObject();

    // 写入HashMap的容量和负载因子
    s.writeInt(map.capacity());
    s.writeFloat(map.loadFactor());

    // 写入元素数量
    s.writeInt(map.size());

    // 依次写入每个元素
    for (E e : map.keySet())
        s.writeObject(e);
}

/**
 * 序列化读取方法
 */
private void readObject(java.io.ObjectInputStream s)
    throws java.io.IOException, ClassNotFoundException {
    // 读取默认的序列化信息
    s.defaultReadObject();

    // 读取HashMap的容量和负载因子
    int capacity = s.readInt();
    if (capacity < 0) {
        throw new InvalidObjectException("Illegal capacity: " +
                                         capacity);
    }

    float loadFactor = s.readFloat();
    if (loadFactor <= 0 || Float.isNaN(loadFactor)) {
        throw new InvalidObjectException("Illegal load factor: " +
                                         loadFactor);
    }

    // 读取元素数量
    int size = s.readInt();
    if (size < 0) {
        throw new InvalidObjectException("Illegal size: " +
                                         size);
    }

    // 创建HashMap
    map = (((HashSet)this) instanceof LinkedHashSet ?
           new LinkedHashMap<E,Object>(capacity, loadFactor) :
           new HashMap<E,Object>(capacity, loadFactor));

    // 读取并添加元素
    for (int i=0; i<size; i++) {
        @SuppressWarnings("unchecked")
        E e = (E) s.readObject();
        map.put(e, PRESENT);
    }
}

5.4 Spliterator方法（Java 8新增）

/**
 * 返回Spliterator（用于并行流操作）
 */
public Spliterator<E> spliterator() {
    return map.keySet().spliterator();
}

6. LinkedHashSet的实现

/**
 * LinkedHashSet是HashSet的子类，保持插入顺序
 */
public class LinkedHashSet<E>
    extends HashSet<E>
    implements Set<E>, Cloneable, java.io.Serializable {
    
    private static final long serialVersionUID = -2851667679971038690L;
    
    /**
     * 无参构造函数
     */
    public LinkedHashSet() {
        super(16, .75f, true);
    }
    
    /**
     * 指定初始容量的构造函数
     */
    public LinkedHashSet(int initialCapacity) {
        super(initialCapacity, .75f, true);
    }
    
    /**
     * 指定初始容量和负载因子的构造函数
     */
    public LinkedHashSet(int initialCapacity, float loadFactor) {
        super(initialCapacity, loadFactor, true);
    }
    
    /**
     * 从集合构造LinkedHashSet
     */
    public LinkedHashSet(Collection<? extends E> c) {
        super(Math.max(2*c.size(), 11), .75f, true);
        addAll(c);
    }
}

7. 总结

7.1 HashSet的特点

底层实现：基于HashMap实现，元素作为HashMap的key存储
无序性：不保证元素的插入顺序（LinkedHashSet保持插入顺序）
唯一性：不允许存储重复元素
允许null：可以存储一个null元素
非线程安全：不是线程安全的
高性能：基本操作（add、remove、contains）平均时间复杂度为O(1)

7.2 时间复杂度分析

添加元素：O(1) 平均情况，O(n) 最坏情况（哈希冲突严重时）
删除元素：O(1) 平均情况，O(n) 最坏情况
查找元素：O(1) 平均情况，O(n) 最坏情况
遍历元素：O(n) - 需要遍历所有元素

7.3 空间复杂度

存储空间：O(n) - n为存储的元素个数
额外空间：HashMap需要额外的存储空间（哈希表、链表/红黑树等）

7.4 HashSet与HashMap的关系

// HashSet内部结构示意图：
// HashSet中的元素e <--> HashMap中的键值对(e, PRESENT)
// 其中PRESENT是一个共享的Object实例

7.5 使用建议

适用场景：
- 需要去除重复元素
- 需要快速查找元素是否存在
- 不关心元素的顺序
- 需要高性能的集合操作
不适用场景：
- 需要保持元素的插入顺序（考虑使用LinkedHashSet）
- 需要对元素进行排序（考虑使用TreeSet）
- 多线程环境（考虑使用Collections.synchronizedSet()包装）
性能优化：
- 如果能预估元素数量，使用带初始容量的构造函数
- 选择合适的负载因子（默认0.75是时间和空间的平衡点）
- 确保元素的hashCode()和equals()方法正确实现