集合出现的原因:是为了使程序能方便的存储和操作数目不固定的一组数据。JDK为此提供了集合。JAVA集合类都位于java.util包中。
集合与数组的区别:java集合中不能存放基本数据类型,而只能存放对象的引用。
集合的类型:
- set(集)
- List(列表)
- Map(映射)

1.collection:在collection接口中适用于java集合(只包括Set和List)的通用方法(下图是关于collection接口的方法,从API里面截图的)
- 注意一点:从上面的途中可以看出来,Set接口和List接口都继承了Collection接口,而Map接口没有继承。
- Collection 接口的iterator()和toArray()方法都用于获得集合中的所有元素,当然用的时候注意返回值类型。


1.1定义:是最简单的一种集合,集合中的对象不按特定方式排序,并且没有重复对象。1.2主要实现类:如果一个类重新实现了equals()方法,那么也应该重新实现hashCode()方法,并且保证当两个对象相等的时候,他们的哈希码也相同。
HashSet(HashSet类按照哈希算法来存取集合中的对象,存取的速度比较快。HashSet类有一个子
类LinkedHashSet类,他不仅实现了哈希算法,而且实现了链表数据结构)
TreeSet(实现了SortedSet接口,具有排序功能)
1.3针对HashSet详细说明
(http://hxraid.iteye.com/blog/448884我觉得这个人说的很好,我直接拷过来,如果这个博主删掉的话,我也有备份哇)
(1) 为啥要用HahSet?
假如我们现在想要在一大堆数据中查找X数据。LinkedList的数据结构就不说了,
查找效率低的可怕。ArrayList哪,如果我们不知道X的位置序号,还是一样要全部遍
历一次直到查到结果,效率一样可怕。HashSet天生就是为了提高查找效率的。
(2) hashCode 散列码
散列码是由对象导出的一个整数值。在Object中有一个hashCode方法来得到散列
码。基本上,每一个对象都有一个默认的散列码,其值就是对象的内存地址。但也有
一些对象的散列码不同,比如String对象,它的散列码是对内容的计算结果:
- //String对象的散列码计算
- String str="hello";
- int hash=0;
- for(int i=0;i<length();i++)
- hash=31*hash+charAt(i);
那么下面散列码的结果不同也就好解释了。s和t都还是String对象,散列码由内容
获得,结果一样。sb和tb是StringBuffer对象,自身没有hashCode方法,只能继承
Object的默认方法,散列码是对象地址,当然不一样了。
- String s=new String("OK");//散列码: 3030
- String t="Ok"; /散列码: 3030
- StringBuffer sb=new StringBuffer(s); //散列码:20526976
- StringBuffer tb=new StringBuffer(t); //散列码:20527144
(3) HashSet 散列表的内部结构
HashSet是个链表数组。每一个数组元素就是一个列表,我们称为散列表元 。
![]()
(4) HashSet 如何add机制
假如我们有一个数据(散列码76268),而此时的HashSet有128个散列单元,那么这
个数据将有可能插入到数组的第108个链表中(76268%128=108)。但这只是有可能,如果
在第108号链表中发现有一个老数据与新数据equals()=true的话,这个新数据将被视为已
经加入,而不再重复丢入链表。
那么数据的散列码我知道,但HashSet的散列单元大小如何指定那?
Java默认的散列单元大小全部都是2的幂,初始值为16(2的4次幂)。假如16条链表
中的75%链接有数据的时候,则认为加载因子达到默认的0.75。HahSet开始重新散列,也
就是将原来的散列结构全部抛弃,重新开辟一个散列单元大小为32(2的5次幂)的散列结
果,并重新计算各个数据的存储位置。以此类推下去.....
(5) 为什么HashSet查找效率提高了。
知道了HashSet的add机制后,查找的道理一样。直接根据数据的散列码和散列表的数
组大小计算除余后,就得到了所在数组的位置,然后再查找链表中是否有这个数据即可。
查找的代价也就是在链表中,但是真正一条链表中的数据很少,有的甚至没有。几乎
没有什么迭代的代价可言了。所以散列表的查找效率建立在散列单元所指向的链表中
的数据要少 。
(6) hashCode方法必须与equals方法必须兼容
如果我们自己定义了一个类,想对这个类的大量对象组织成散列表结构便于查找。
有一点一定要注意:就是hashCode方法必须与equals方法向兼容。
- //hashCode与equals方法的兼容
- public class Employee{
- public int id;
- public String name="";
- //相同id对象具有相同散列码
- public int hashCode(){
- return id;
- }
- //equals必须比较id
- public boolean equals(Employee x){
- if(this.id==x.id) return true;
- else return false;
- }
- }
为什么要这样,因为HashSet不允许相同元素(equals==ture)同时存在在结构中。假如employeeX(1111,“张三”)和employee(1111,"李四"),而Employee.equals比较的是name。
这样的话,employeeX和employeeY的equals不相等。它们会根据相同的散列码1111加入
到同一个散列单元所指向的列表中。这种情况多了,链表的数据将很庞大,散列冲突将非
常严重,查找效率会大幅度的降低。
(6) 总结一下
1、HashSet不能重复存储equals相同的数据 。原因就是equals相同,数据的散列码
也就相同(hashCode必须和equals兼容)。大量相同的数据将存放在同一个散列单元所
指向的链表中,造成严重的散列冲突,对查找效率是灾难性的。
2、HashSet的存储是无序的 ,没有前后关系,他并不是线性结构的集合。
3、hashCode必须和equals必须兼容, 这也是为了第1点。
我自己的理解HashSet类是按照哈希算法来存取集合中的对象,具有很好的存取和查找性能。当向集合中加入一个对象时,HashSet会调用对象的hashCode()方法来获得哈希码,然后根据这个哈希码进一步计算出对象在集合中的存放位置。(打个比方:哈希码就像是人的身份证号码,不能有重复的,找人的话,先找号码,然后找人。)使用HaseSet时,注意equals()方法,不然会是HashSet无法工作。
1.4针对TreeSet详细说明TreeSet类实现了SortedSet接口,而且能够对集合中的对象进行排序。最适合用TreeSet排序的是不可变类。(不可变类的主要特征是他的对象的属性不能被修改)
1.4.1 工作机制
当TreeSet向集合中加入一个对象时,会把它插入到有序的对象序列中
1.4.2排序方式
1.4.2.1自然排序(默认情况下)
TreeSet调用对象的compareTo()方法比较集合中对象的大小,然后进行升序排列,这种方式
称为自然排序。使用自然排序时,只能向TreeSet集合中加入同类型的对象,并且这些对象
的类必须实现了Comparable接口。(下图是JDK类库中实现了Compareable接口的一些类
的排序方式)
![]()
1.4.2.2客户端排序
TreeSet 调用Comparator中compare()方法进行排序。
在JAVA开发中List接口最长用到的是下面两种实现类:---ArrayList:代表长度可变的数组,允许对元素进行快速的随机访问,但是插入和删除元素的速度较慢---LinkedList:在实现中采用的链表数据结构,对顺序访问进行了优化,向List中插入和删除的速度较快,随机访问速度则较慢
- 允许null元素,类提供多个方法,用于在列表开始处和结尾处获得、删除和插入元素- 使LinkedList可被用作堆栈(stack),队列(queue)或双向队列(deque)。- 注意LinkedList没有同步方法。如果多个线程同时访问一个List,则必须自己实现访问同步。一种解决方法是在创建List时构造一个同步的List:-List list = Collections.synchronizedList(new LinkedList(...));
List中主要用到的还是ArrayList ,LinkedList, Vector
ArrayList 和Vector的区别:
Vector类和ArrayList类的主要不同之处在于同步(这块会在线程的讲解,我也不是很明白)。
Vector是已同步的,所以效率上比较低一些。一般,在不需要同步时应该使用ArrayList,反之使用Vector。(这个和StringBuff 和StringBuilder的区别上大体一样)。
![]()
![]()
3.Map(映射)
Map是
3.1Map的实现类
![]()
3.2下图是Map的实现方法
3.3Map两种实现类
HashMap:按照哈希算法来存取键对象,有很好的存取性能,(和HashSet类似,可以看下HashSet的
重复键对象的比较)
一种未分类,未排序的映射类,不需要顺序时HashMap是一种最好的选择,因为其效率较高,HashMap允许集
合中有一个null键和多个null值。
- Hashtable:Hashtable 是HashMap的同步版本,但Hashtable不允许有任何的null存在。TreeMap:从上图中可以看出,TreeMap实现了SortedMap,能对键对象进行排序。(和TreeSet类似)
Map的一些方法看上图中的介绍
集合中的方法多看看API里面的介绍,自己在写点题目就差不多了
集合到此为止
小结一下:我整理到现在发现了几个关于进程同步的问题
1.StringBuffer和StringBuilder
2.ArrayList和vector
3.HashMap和HashTable
我觉得面试中考到的几率比较大。