Set和数学中的集合是同一个概念,就是没有重复元素的集合。

本文深入探讨了 Java 中 Set 接口的不同实现方式,包括 TreeSet、HashSet 和 CopyOnWriteArraySet 如何确保集合中元素的唯一性。通过具体示例说明了每种实现判断重复元素的依据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Set和数学中的集合是同一个概念,就是没有重复元素的集合。

这篇文章主要论述了Set是如何实现"没有重复元素"(no duplicate elements)的,以及阐述了什么是“重复”(duplicate),是相同的地址空间?是equals的返回值为true?是compareTo的返回值为0 ?还是有相同的hashCode?本文还给出了在什么情况下使用什么样的Set的建议。

注:本文不涉及范型。

1、树形结构:
 public interface Set<E> extends Collection<E>{}
 public abstract class AbstractSet<E> extends AbstractCollection<E> implements Set<E>{}
 public class CopyOnWriteArraySet<E>extends AbstractSet<E>implements Serializable{}
 public abstract class EnumSet<E extends Enum<E>>extends AbstractSet<E>implements Cloneable, Serializable{}
 public class HashSet<E>extends AbstractSet<E>implements Set<E>, Cloneable, Serializable{}
 public final class JobStateReasonsextends HashSet<JobStateReason>implements PrintJobAttribute{}
 public class LinkedHashSet<E>extends HashSet<E>implements Set<E>, Cloneable, Serializable{}
 public class TreeSet<E>extends AbstractSet<E>implements SortedSet<E>, Cloneable, Serializable{}
   可以看出,可以实例化的类为:CopyOnWriteArraySet,HashSet,LinkedHashSet,TreeSet。
2、Set是如何实现元素唯一性的
   javadoc中对Set的描述第一段如下:“A collection that contains no duplicate elements. More formally, sets contain no pair of elements e1
   and e2 such that e1.equals(e2), and at most one null element. As implied by its name, this interface models the mathematical set abstraction.”
   这段话是对是错,请看下面分析。
   要进行下面的论述,我们先了解一下Map。Map中的元素是“键-值”对,其中“键”必须是唯一的。TreeSet和HashSet就是利用这个特性实现“no duplicate    elements”。它把set中的元素作为Map中的“键”,从而保持元素的唯一性。这些键在Map中又是如何区分的呢?不同的Map有不同的做法,而且区别很大。
   下面我们分别就TreeSet、HashSet和CopyOnWriteArraySet进行论述:
2.1、TreeSet部分:
   以下以TreeSet为例进行分析。
   请看TreeSet的部分实体:
 public class TreeSet<E> extends AbstractSet<E>
      implements SortedSet<E>, Cloneable, java.io.Serializable
 {
  // The backing Map
      private transient SortedMap<E,Object> m;
      // The keySet view of the backing Map
      private transient Set<E> keySet;
      // Dummy value to associate with an Object in the backing Map
      //这是每个键所指的对像
      private static final Object PRESENT = new Object();
      //constructor
      private TreeSet(SortedMap<E,Object> m) {
          this.m = m;
           keySet = m.keySet();
      }
      public TreeSet() {
   this(new TreeMap<E,Object>());
      }
      //以下省略..........
 }
    可以看到TreeSet使用了SortedMap作为其Map保存“键-值”对,而这个SortedMap的真正实体是TreeMap。
   
    请看示例程序1:
 import java.util.*;
 public class SetTest1 {
  public static void main(String[] args){
   Set set = new TreeSet();
   set.add(new SetElement1("aa"));
   set.add(new SetElement1("bb"));
  }
  static class SetElement1{
   String s;
   public SetElement1(String s){
    this.s =  s;
   }
   public String toString(){
    return s;
   }
   public boolean equals(Object obj) {
    return s.equals(((SetElement1)obj).s);
   }
  }
 }
    该程序能够正常编译,但是运行时会抛出异常java.lang.ClassCastException。为什么?
   
    请看示例程序2:
 import java.util.*;
 public class SetTest2 {
  public static void main(String[] args){
   Set set = new TreeSet();
   set.add(new SetElement2("aa"));
   set.add(new SetElement2("aa"));
   set.add(new SetElement2("bb"));
   System.out.println(set);
  }
  static class SetElement2 implements Comparable{
   String s;
   public SetElement2(String s){
    this.s =  s;
   }
   public String toString(){
    return s;
   }
   public int compareTo(Object o){
    return s.compareTo(((SetElement2)o).s);
   }
   public boolean equals(Object obj) {
    return s.equals(((SetElement2)obj).s);
   }
  }
 }
   运行结果:
   [aa, bb]
   这正是我们所期望的结果。那“示例程序1”和“示例程序2”有什么区别?
   是因为SetElement2实现了Comparable接口,而SetElement1没有。SetElement2实现Comparable接口有什么用呢?因为在TreeSet的add方法中需要比较两个    元素的“值”。请看TreeMap中的compare方法:
   private int compare(K k1, K k2) {
        return (comparator==null ? ((Comparable</*-*/K>)k1).compareTo(k2)
                                 : comparator.compare((K)k1, (K)k2));
   }
   可见这个方法先把要比较的元素down cast成Comparable类型。这里就可以解释“示例程序1”中为什么会抛出异常java.lang.ClassCastException,因SetElement1没有实现Comparable接口,当然就不能down cast成Comparable。可见,要用TreeSet来做为你的Set,那么Set中所装的元素都必须实现了Comparable接口。
   说到这里,你是不是想到了TreeSet中是采用Comparable接口中的compareTo方法来判断元素是否相同(duplicate),而不是采用其他类似equals之类的东东来判断。
  
   请看示例程序3:
    import java.util.Set;
 import java.util.*;
 public class SetTest3 {
  public static void main(String[] args){
   Set set = new HashSet();
   set.add(new SetElement3("aa"));
   set.add(new SetElement3("aa"));
   set.add(new SetElement3("bb"));
   System.out.println(set);
  }
  static class SetElement3 implements Comparable{
   String s;
   public SetElement3(String s){
    this.s =  s;
   }
   public String toString(){
    return s;
   }
   public int compareTo(Object o){
    //return s.compareTo(((SetElement3)o).s);
    return -1;
   }
   public boolean equals(Object obj) {
    return s.equals(((SetElement3)obj).s);
   }
  }
 }
   运行结果:
   [bb, aa, aa]
   看到没有,有两个“aa”!!这是因为compareTo返回值始终是"-1",也就是说“把任何元素都看成不同”。
  
   综上所述,你是否对javadoc中对Set功能的描述有了怀疑?!
2.2、HashSet部分:
   以下以HashSet为例进行分析。
   从Hashset类的主体部分:
 public class HashSet<E> extends AbstractSet<E>
     implements Set<E>, Cloneable, java.io.Serializable
 {
  static final long serialVersionUID = -5024744406713321676L;
  private transient HashMap<E,Object> map;
  // Dummy value to associate with an Object in the backing Map
  //这是每个键所指的对像
  private static final Object PRESENT = new Object();

     public HashSet() {
   map = new HashMap<E,Object>();
      }
     public boolean add(E o) {
   return map.put(o, PRESENT)==null;
      }
    //以下省略..........
    }
 
        public HashSet() {
 
  map = new HashMap<E,Object>();
   
 }
   可以看到HashSet使用了HashMap作为其Map保存“键-值”对。
  
   请看示例程序4:
 import java.util.*;

 public class SetTest4 {
 public static void main(String[] args){
  Set set = new HashSet();
  set.add(new SetElement4("aa"));
  set.add(new SetElement4("aa"));
  set.add(new SetElement4("bb"));
  System.out.println(set);
 }
 static class SetElement4{
  String s;
  public SetElement4(String s){
   this.s =  s;
  }
  public String toString(){
   return s;
  }
  public boolean equals(Object obj) {
   return s.equals(((SetElement4)obj).s);
  }
 }
}

   运行结果:
   [bb, aa, aa]
   没有“示例程序1”中的java.lang.ClassCastException,但是运行结果似乎不对,因为有两个“aa”。
  
   请看示例程序5:
 import java.util.*;
 public class SetTest5 {
  public static void main(String[] args){
   Set set = new HashSet();
   set.add(new SetElement5("aa"));
   set.add(new SetElement5("aa"));
   set.add(new SetElement5("bb"));
   System.out.println(set);
  }
  static class SetElement5{
   String s;
   public SetElement5(String s){
    this.s =  s;
   }
   public String toString(){
    return s;
   }
   public boolean equals(Object obj) {
    return s.equals(((SetElement5)obj).s);
   }
   public int hashCode() {
    //return super.hashCode();
    return s.hashCode();
   }
  }
 }
    运行结果:
    [bb, aa]
    这就对了。“示例程序4”和“示例程序5”有什么区别?是SetElement5重写了hashCode方法。
   
    可见HashSet中是采用了比较元素hashCode的方法来判断元素是否相同(duplicate),而不是采用其他类似equals之类的东东来判断。
   
    说了这么多,那java类库中到底有没有根据equals来判断元素是否相同(duplicate)的Set呢?请看下文。
2.2、CopyOnWriteArraySet部分:
   类CopyOnWriteArraySet是java.util.concurrent包中的一个类,所以它是线程安全的。
   CopyOnWriteArraySet是使用CopyOnWriteArrayList作为其盛放元素的容器。当往CopyOnWriteArrayList添加新元素,它都要遍历整个List,并且用equals来    比较两个元素是否相同。

   请看示例程序6:
 import java.util.*;
 import java.util.concurrent.*;
 public class SetTest6 {
  public static void main(String[] args){
   Set set = new CopyOnWriteArraySet();
   set.add(new SetElement6("aa"));
   set.add(new SetElement6("aa"));
   set.add(new SetElement6("bb"));
   System.out.println(set);
  }
  static class SetElement6{
   String s;
   public SetElement6(String s){
    this.s =  s;
   }
   public String toString(){
    return s;
   }
   public boolean equals(Object obj) {
    return s.equals(((SetElement6)obj).s);
   }
  }
 }
   运行结果:
   [aa, bb]
   好了,一切搞定!!

3、总结:
   Javadoc中的一些描述可能是不准确的,大家要当心了!
  
   Set中实现元素互异的各种方法差异很大,大致可以分为三种:使用equals,使用hashCode,使用compareTo。但是我还没有发现采用“判断地址空间是否相同”来判断元素是否相同的类,当然我们可以用现有的三种方法来实现“判断地址空间是否相同”。
  
   综上所述,我们可以总结出使用Set的三种不同的情形:(以下假设元素类为Element)
   A、如果想使用Element的equals方法来判断元素是否相同,那么可以使用CopyOnWriteArraySet来构造类的实体。
   B、如果Element实现了Comparable接口,而且想使用compareTo方法来判断元素是否相同,那么可以使用TreeSet来构造类的实体。
   C、如果想使用判断hashCode是否相同的方法来判断元素是否相同,那么可以使用HashSet来构造类的实体。

<think>好的,我现在需要回答用户关于Python集合数据类型的特点,特别是无序性不重复性的问题。首先,我得回忆一下集合的基本定义。集合是Python中的一种内置数据类型,类似于列表或字典,但具有不同的特性。用户提到“无序”“不重复”,这两个是集合的关键特点,我需要详细解释。 首先,无序性。集合中的元素没有固定的顺序,这意味着不能通过索引来访问元素。这一点列表、元组不同。我需要确认一下,是否在Python的不同版本中有变化。比如,用户提供的引用里提到,CPython3.6之后字典保持了插入顺序,但集合仍然是无序的。这一点很重要,避免用户混淆字典集合的行为差异。应该强调,即使字典变得有序了,集合还是无序的,所以在迭代或打印时顺序可能不同。 然后是元素的不重复性。集合会自动去除重复的元素,这对于去重操作非常有用。比如,用户如果有一个列表有重复项,转换成集合就会自动去重。可以举一个例子,比如把列表[1,2,2,3]转换成集合后变成{1,2,3}。这里需要说明,添加重复元素集合不会有变化,比如使用add()方法添加已存在的元素会被忽略。 接下来,集合的操作符方法。用户提供的引用里提到了集合操作符如S-T、S&T、S^T、S|T,这些对应差集、交集、对称差集并集。需要解释每个操作符的作用,可能举例子说明。例如,S = {1,2,3},T = {3,4,5},S|T就是{1,2,3,4,5},而S-T就是{1,2}。此外,常用的方法如add()、remove()、clear()也需要提到,注意remove()在元素不存在时会引发KeyError,而discard()方法则不会,这也是一个需要注意的地方。 另外,集合的可变性。集合属于可变类型,所以可以添加或删除元素。但是集合本身不能包含不可哈希的元素,比如列表或另一个集合,但可以包含元组,因为元组是不可变的。这一点可能需要补充说明,帮助用户理解哪些元素可以放入集合中。 还有性能方面的特点,集合是基于哈希表实现的,所以查找元素的速度很快,时间复杂度是O(1),这使得集合在成员检测去重时非常高效。列表的O(n)相比,这在处理大数据量时优势明显。例如,检查一个元素是否在集合中比在列表中快很多。 然后,需要回答用户的问题,可能生成相关的问题,比如如何利用集合去重,集合列表的区别,集合的应用场景,如何创建集合,或者为什么集合元素必须是不可变的类型。这些相关问题可以帮助用户进一步学习。 在引用部分,用户提供的引用1引用2主要讲集合的无序性实现细节,特别是CPython中的情况。需要正确引用这些内容,例如在解释无序性时提到引用2中的内容,说明即使在Python3.6之后字典变得有序,集合仍然保持无序。 最后,确保回答结构清晰,分点说明特点,使用示例代码,正确应用LaTeX格式,比如变量用$...$,独立公式用$$...$$,但在这个问题中可能用不到太多数学公式,所以主要集中在代码块文字描述上。</think>### Python集合数据类型的特点 Python集合(`set`)是一种**无序、不重复**的可变容器类型,其核心特性如下: --- #### 1. **无序性** - **元素无固定顺序**:集合中的元素存储显示顺序与插入顺序无关,无法通过索引访问(如`set[0]`会报错)[^2]。 - **底层实现**:基于哈希表(类似字典),元素的位置由哈希值决定,因此遍历顺序不可预测。 ```python s = {3, 1, 2} print(s) # 输出可能是{1, 2, 3}、{3, 1, 2}等任意顺序 ``` --- #### 2. **元素唯一性** - **自动去重**:集合中不允许重复元素。若添加重复值,集合会自动忽略。 ```python s = {1, 2, 2, 3} print(s) # 输出{1, 2, 3} ``` - **成员检测高效**:因哈希表实现,检查元素是否存在的时间复杂度为$O(1)$,远快于列表的$O(n)$[^1]。 --- #### 3. **可变性与元素限制** - **可变对象**:支持增删元素(如`add()`、`remove()`)。 - **元素必须可哈希**:集合元素需为不可变类型(如整数、字符串、元组),不可包含列表或字典等可变类型[^1]。 ```python valid_set = {(1, 2), "hello"} # 合法 invalid_set = {[1, 2]} # 报错:列表不可哈希 ``` --- #### 4. **集合运算** - **操作符支持**:可直接使用`|`(并集)、`&`(交集)、`-`(差集)、`^`(对称差集)。 ```python a = {1, 2}; b = {2, 3} print(a | b) # {1, 2, 3} print(a & b) # {2} ``` - **常用方法**:如`update()`合并集合、`discard()`安全删除元素(不报错)等。 --- #### 应用场景 - **去重**:快速从列表中删除重复项:`list(set(my_list))`。 - **关系运算**:高效处理交集、并集等逻辑(如数据分析中的筛选)。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值