我的安卓学习之路--java集合_java 集合出现的原因-优快云博客

本文深入解析Java集合框架中的HashSet与TreeSet，阐述其存储原理、查找效率、实现机制及应用场景。重点讨论了HashSet的哈希算法、查找性能提升、hashCode与equals兼容性；TreeSet的排序方式、工作机制与排序策略。同时对比了ArrayList与LinkedList的特点，以及HashMap与HashTable的区别。文章最后总结了Java集合类在实际开发中的应用与注意事项。

集合出现的原因：是为了使程序能方便的存储和操作数目不固定的一组数据。JDK为此提供了集合。JAVA集合类都位于java.util包中。

集合与数组的区别：java集合中不能存放基本数据类型，而只能存放对象的引用。

集合的类型：

set(集)
List(列表)
Map(映射)

集合的类框图：

两个主要的接口：

1.collection：在collection接口中适用于java集合（只包括Set和List）的通用方法（下图是关于collection接口的方法，从API里面截图的）

注意一点：从上面的途中可以看出来，Set接口和List接口都继承了Collection接口，而Map接口没有继承。
Collection 接口的iterator()和toArray()方法都用于获得集合中的所有元素，当然用的时候注意返回值类型。

2.Iterator接口（迭代器，遍历整个集合）（下图是关于collection接口的方法，从API里面截图的）

下面对于每个集合详细说明：

1.set(集)：Set集合中存放的是对象的引用，并且没有重复对象（是用equals（）的方法，而不是用“==”来比较的）。

Set集合中的数目不是固定的。

Set最多有一个null元素

1.1定义：是最简单的一种集合，集合中的对象不按特定方式排序，并且没有重复对象。

1.2主要实现类:

如果一个类重新实现了equals()方法，那么也应该重新实现hashCode()方法，并且保证当两个对象相等的时候，

他们的哈希码也相同。

HashSet（HashSet类按照哈希算法来存取集合中的对象，存取的速度比较快。HashSet类有一个子
类LinkedHashSet类，他不仅实现了哈希算法，而且实现了链表数据结构）
TreeSet（实现了SortedSet接口，具有排序功能）

1.3针对HashSet详细说明

（http://hxraid.iteye.com/blog/448884我觉得这个人说的很好，我直接拷过来，如果这个博主删掉的话，

我也有备份哇）

(1) 为啥要用HahSet?

      假如我们现在想要在一大堆数据中查找X数据。LinkedList的数据结构就不说了，

查找效率低的可怕。ArrayList哪，如果我们不知道X的位置序号，还是一样要全部遍

历一次直到查到结果，效率一样可怕。HashSet天生就是为了提高查找效率的。

(2) hashCode 散列码

      散列码是由对象导出的一个整数值。在Object中有一个hashCode方法来得到散列

码。基本上，每一个对象都有一个默认的散列码，其值就是对象的内存地址。但也有

一些对象的散列码不同，比如String对象，它的散列码是对内容的计算结果：

Java代码

//String对象的散列码计算
String str="hello";
int hash=0;
for(int i=0;i<length();i++)
    hash=31*hash+charAt(i);

      那么下面散列码的结果不同也就好解释了。s和t都还是String对象，散列码由内容

获得，结果一样。sb和tb是StringBuffer对象，自身没有hashCode方法，只能继承

Object的默认方法，散列码是对象地址，当然不一样了。

Java代码

String s=new String("OK");//散列码: 3030
String t="Ok";  /散列码: 3030
StringBuffer sb=new StringBuffer(s);  //散列码：20526976
StringBuffer tb=new StringBuffer(t);  //散列码：20527144

(3) HashSet 散列表的内部结构

      HashSet是个链表数组。每一个数组元素就是一个列表，我们称为散列表元 。



(4) HashSet 如何add机制

      假如我们有一个数据(散列码76268)，而此时的HashSet有128个散列单元，那么这

个数据将有可能插入到数组的第108个链表中(76268%128=108)。但这只是有可能，如果

在第108号链表中发现有一个老数据与新数据equals()=true的话，这个新数据将被视为已

经加入，而不再重复丢入链表。

       那么数据的散列码我知道，但HashSet的散列单元大小如何指定那?

       Java默认的散列单元大小全部都是2的幂，初始值为16（2的4次幂）。假如16条链表

中的75%链接有数据的时候，则认为加载因子达到默认的0.75。HahSet开始重新散列，也

就是将原来的散列结构全部抛弃，重新开辟一个散列单元大小为32（2的5次幂）的散列结

果，并重新计算各个数据的存储位置。以此类推下去.....

(5) 为什么HashSet查找效率提高了。

      知道了HashSet的add机制后，查找的道理一样。直接根据数据的散列码和散列表的数

组大小计算除余后，就得到了所在数组的位置，然后再查找链表中是否有这个数据即可。

      查找的代价也就是在链表中，但是真正一条链表中的数据很少，有的甚至没有。几乎

没有什么迭代的代价可言了。所以散列表的查找效率建立在散列单元所指向的链表中

的数据要少 。

(6) hashCode方法必须与equals方法必须兼容

      如果我们自己定义了一个类，想对这个类的大量对象组织成散列表结构便于查找。

有一点一定要注意：就是hashCode方法必须与equals方法向兼容。

Java代码

//hashCode与equals方法的兼容
public class Employee{
       public int id;
       public String name="";
       //相同id对象具有相同散列码
       public int hashCode(){
              return id;
       }
       //equals必须比较id
        public boolean equals(Employee x){
              if(this.id==x.id) return true;
              else return false;
       }
}

   为什么要这样，因为HashSet不允许相同元素(equals==ture)同时存在在结构中。假如employeeX(1111，“张三”)和employee(1111,"李四")，而Employee.equals比较的是name。

这样的话，employeeX和employeeY的equals不相等。它们会根据相同的散列码1111加入

到同一个散列单元所指向的列表中。这种情况多了，链表的数据将很庞大，散列冲突将非

常严重，查找效率会大幅度的降低。

(6) 总结一下

      1、HashSet不能重复存储equals相同的数据 。原因就是equals相同，数据的散列码

也就相同（hashCode必须和equals兼容）。大量相同的数据将存放在同一个散列单元所

指向的链表中，造成严重的散列冲突，对查找效率是灾难性的。

      2、HashSet的存储是无序的 ，没有前后关系，他并不是线性结构的集合。

      3、hashCode必须和equals必须兼容， 这也是为了第1点。

我自己的理解

HashSet类是按照哈希算法来存取集合中的对象，具有很好的存取和查找性能。当向集合中加入

一个对象时，HashSet会调用对象的hashCode（）方法来获得哈希码，然后根据这个哈希码进一

步计算出对象在集合中的存放位置。（打个比方：哈希码就像是人的身份证号码，不能有重复的，

找人的话，先找号码，然后找人。）使用HaseSet时，注意equals（）方法，不然会是HashSet无法工作。

1.4针对TreeSet详细说明

TreeSet类实现了SortedSet接口，而且能够对集合中的对象进行排序。最适合用TreeSet排序的是不可变类。

（不可变类的主要特征是他的对象的属性不能被修改）

1.4.1 工作机制

当TreeSet向集合中加入一个对象时，会把它插入到有序的对象序列中

1.4.2排序方式

1.4.2.1自然排序（默认情况下）

TreeSet调用对象的compareTo()方法比较集合中对象的大小，然后进行升序排列，这种方式

称为自然排序。使用自然排序时，只能向TreeSet集合中加入同类型的对象，并且这些对象

的类必须实现了Comparable接口。（下图是JDK类库中实现了Compareable接口的一些类

的排序方式）

1.4.2.2客户端排序

TreeSet 调用Comparator中compare（）方法进行排序。

2.List(列表)：主要特征是其元素以线性方式存储， 具有顺序的集合，扩展了Collection接口，元素可以通过其整

型下标访问，可以包含重复元素

在JAVA开发中List接口最长用到的是下面两种实现类：

---ArrayList：代表长度可变的数组，允许对元素进行快速的随机访问，但是插入和删除元素的速度较慢

---LinkedList：在实现中采用的链表数据结构，对顺序访问进行了优化，向List中插入和删除的速度较快，随机

访问速度则较慢

- 允许null元素，类提供多个方法，用于在列表开始处和结尾处获得、删除和插入元素

- 使LinkedList可被用作堆栈（stack），队列（queue）或双向队列（deque）。

- 注意LinkedList没有同步方法。如果多个线程同时访问一个List，则必须自己实现访问同步。一种

解决方法是在创建List时构造一个同步的List：

-List list = Collections.synchronizedList(new LinkedList(...));

List中主要用到的还是ArrayList ，LinkedList， Vector

ArrayList 和Vector的区别：

Vector类和ArrayList类的主要不同之处在于同步（这块会在线程的讲解，我也不是很明白）。

Vector是已同步的，所以效率上比较低一些。一般，在不需要同步时应该使用ArrayList，反之使用Vector。

（这个和StringBuff 和StringBuilder的区别上大体一样）。

3.Map（映射）

Map是

按“键－值”对进行插入，（键、值都是对象）可以按照键来搜索值对象，他的每一个元素都包含一对键对象和值

对象，而值对象任可以使Map类型（可以形成多级映射），Map集合中的键对象不允许重复（任意两个对象通

过equal（）方法比较的结果都是false。），值对象随意。

3.1Map的实现类

3.2下图是Map的实现方法

3.3Map两种实现类

HashMap：按照哈希算法来存取键对象，有很好的存取性能，（和HashSet类似，可以看下HashSet的

重复键对象的比较）

一种未分类，未排序的映射类，不需要顺序时HashMap是一种最好的选择，因为其效率较高，HashMap允许集

合中有一个null键和多个null值。

- Hashtable：Hashtable 是HashMap的同步版本，但Hashtable不允许有任何的null存在。

TreeMap：从上图中可以看出，TreeMap实现了SortedMap，能对键对象进行排序。（和TreeSet类似）

Map的一些方法看上图中的介绍

集合中的方法多看看API里面的介绍，自己在写点题目就差不多了

集合到此为止

小结一下：我整理到现在发现了几个关于进程同步的问题

1.StringBuffer和StringBuilder

2.ArrayList和vector

3.HashMap和HashTable

我觉得面试中考到的几率比较大。