转载自:http://www.hollischuang.com/archives/230
http://www.hollischuang.com/archives/226
Java泛型(generics
) 是JDK 5中引入的一个新特性,允许在定义类和接口的时候使用类型参数(type parameter)。声明的类型参数在使用时用具体的类型来替换。泛型最主要的应用是在JDK 5中的新集合类框架中。对于泛型概念的引入,开发社区的观点是褒贬不一。从好的方面来说,泛型的引入可以解决之前的集合类框架在使用过程中通常会出现的运行时刻类型错误,因为编译器可以在编译时刻就发现很多明显的错误。而从不好的地方来说,为了保证与旧有版本的兼容性,Java泛型的实现上存在着一些不够优雅的地方。当然这也是任何有历史的编程语言所需要承担的历史包袱。后续的版本更新会为早期的设计缺陷所累。
开发人员在使用泛型的时候,很容易根据自己的直觉而犯一些错误。比如一个方法如果接收List<Object>
作为形式参数,那么如果尝试将一个List<String>
的对象作为实际参数传进去,却发现无法通过编译。虽然从直觉上来说,Object是String的父类,这种类型转换应该是合理的。但是实际上这会产生隐含的类型转换问题,因此编译器直接就禁止这样的行为。本文试图对Java泛型做一个概括性的说明。
类型擦除 Java的类型擦除
正确理解泛型概念的首要前提是理解类型擦除(type erasure
)。
Java中的泛型基本上都是在编译器这个层次来实现的。在生成的Java字节代码中是不包含泛型中的类型信息的。使用泛型的时候加上的类型参数,会被编译器在编译的时候去掉。这个过程就称为类型擦除。如在代码中定义的List<Object>
和List<String>
等类型,在编译之后都会变成List。JVM看到的只是List,而由泛型附加的类型信息对JVM来说是不可见的。Java编译器会在编译时尽可能的发现可能出错的地方,但是仍然无法避免在运行时刻出现类型转换异常的情况。类型擦除也是Java的泛型实现方式与C++模板机制实现方式之间的重要区别。 很多泛型的奇怪特性都与这个类型擦除的存在有关,包括:
泛型类并没有自己独有的Class类对象。比如并不存在
List<String>.class
或是List<Integer>.class
,而只有List.class
。 静态变量是被泛型类的所有实例所共享的。对于声明为MyClass<T>
的类,访问其中的静态变量的方法仍然是 MyClass.myStaticVar。不管是通过new MyClass<String>;
还是new MyClass<Integer>
创建的对象,都是共享一个静态变量。 泛型的类型参数不能用在Java异常处理的catch语句中。因为异常处理是由JVM在运行时刻来进行的。由于类型信息被擦除,JVM是无法区分两个异常类型MyException<String>;
和MyException<Integer>
的。对于JVM来说,它们都是 MyException类型的。也就无法执行与异常对应的catch语句。
类型擦除的基本过程也比较简单: 首先是找到用来替换类型参数的具体类。这个具体类一般是Object。如果指定了类型参数的上界的话,则使用这个上界。把代码中的类型参数都替换成具体的类。同时去掉出现的类型声明,即去掉<>
的内容。比如: T get()
方法声明就变成了Object get()
; List<String>
就变成了List
。 接下来就可能需要生成一些桥接方法(bridge method)。这是由于擦除了类型之后的类可能缺少某些必须的方法。比如考虑下面的代码:
class MyString implements Comparable<String> {
public int compareTo(String str) {
return 0;
}
}
当类型信息被擦除之后,上述类的声明变成了class MyString implements Comparable。但是这样的话,类MyString就会有编译错误,因为没有实现接口Comparable声明的int compareTo(Object)方法。这个时候就由编译器来动态生成这个方法。
实例分析
了解了类型擦除机制之后,就会明白编译器承担了全部的类型检查工作。编译器禁止某些泛型的使用方式,正是为了确保类型的安全性。以上面提到的List<Object>
和List<String>
为例来具体分析:
public void inspect(List<Object> list) {
for (Object obj : list) {
System.out.println(obj);
}
list.add(1); //这个操作在当前方法的上下文是合法的。
}
public void test() {
List<String> strs = new ArrayList<String>();
inspect(strs); //编译错误
}
这段代码中,inspect
方法接受List<Object>
作为参数,当在test
方法中试图传入List<String>
的时候,会出现编译错误。假设这样的做法是允许的,那么在inspect
方法就可以通过list.add(1)
来向集合中添加一个数字。这样在test
方法看来,其声明为List<String>
的集合中却被添加了一个Integer
类型的对象。这显然是违反类型安全的原则的,在某个时候肯定会抛出ClassCastException
。因此,编译器禁止这样的行为。编译器会尽可能的检查可能存在的类型安全问题。对于确定是违反相关原则的地方,会给出编译错误。当编译器无法判断类型的使用是否正确的时候,会给出警告信息。
通配符与上下界 (可参考 Java泛型中extends和super的理解 和 Java泛型中K T V E ? object等的含义)
在使用泛型类的时候,既可以指定一个具体的类型,如List<String>
就声明了具体的类型是String
;也可以用通配符?
来表示未知类型,如List<?>
就声明了List中包含的元素类型是未知的。 通配符所代表的其实是一组类型,但具体的类型是未知的。List<?>
所声明的就是所有类型都是可以的。但是List<?>
并不等同于List<Object>
。List<Object>
实际上确定了List
中包含的是Object
及其子类,在使用的时候都可以通过Object
来进行引用。而List<?>
则其中所包含的元素类型是不确定。其中可能包含的是String
,也可能是 Integer
。如果它包含了String
的话,往里面添加Integer
类型的元素就是错误的。正因为类型未知,就不能通过new ArrayList<?>()
的方法来创建一个新的ArrayList
对象。因为编译器无法知道具体的类型是什么。但是对于 List<?>
中的元素确总是可以用Object
来引用的,因为虽然类型未知,但肯定是Object
及其子类。考虑下面的代码:
public void wildcard(List<?> list) {
list.add(1);//编译错误
}
如上所示,试图对一个带通配符的泛型类进行操作的时候,总是会出现编译错误。其原因在于通配符所表示的类型是未知的。
因为对于List<?>
中的元素只能用Object
来引用,在有些情况下不是很方便。在这些情况下,可以使用上下界来限制未知类型的范围。 如List<? extends Number>
说明List中可能包含的元素类型是Number
及其子类。而List<? super Number>
则说明List
中包含的是Number
及其父类。当引入了上界之后,在使用类型的时候就可以使用上界类中定义的方法。比如访问 List<? extends Number>
的时候,就可以使用Number
类的intValue
等方法。
类型系统
在Java中,大家比较熟悉的是通过继承机制而产生的类型体系结构。比如String
继承自Object
。根据Liskov替换原则,子类是可以替换父类的。当需要Object类的引用的时候,如果传入一个String
对象是没有任何问题的。但是反过来的话,即用父类的引用替换子类引用的时候,就需要进行强制类型转换。编译器并不能保证运行时刻这种转换一定是合法的。这种自动的子类替换父类的类型转换机制,对于数组也是适用的。 String[]
可以替换Object[]
。但是泛型的引入,对于这个类型系统产生了一定的影响。正如前面提到的List是不能替换掉List<Object>
的。
引入泛型之后的类型系统增加了两个维度:一个是类型参数自身的继承体系结构,另外一个是泛型类或接口自身的继承体系结构。第一个指的是对于 List<String>
和List<Object>
这样的情况,类型参数String
是继承自Object
的。而第二种指的是 List
接口继承自Collection
接口。对于这个类型系统,有如下的一些规则:
相同类型参数的泛型类的关系取决于泛型类自身的继承体系结构。即
List<String>
是Collection<String>
的子类型,List<String>
可以替换Collection<String>
。这种情况也适用于带有上下界的类型声明。 当泛型类的类型声明中使用了通配符的时候, 其子类型可以在两个维度上分别展开。如对Collection<? extends Number>
来说,其子类型可以在Collection这个维度上展开,即List<? extends Number>
和Set<? extends Number>
等;也可以在Number这个层次上展开,即Collection<Double>
和Collection<Integer>
等。如此循环下去,ArrayList<Long>
和HashSet<Double>
等也都算是Collection<? extends Number>
的子类型。 如果泛型类中包含多个类型参数,则对于每个类型参数分别应用上面的规则。
理解了上面的规则之后,就可以很容易的修正实例分析中给出的代码了。只需要把List<Object>
改成List<?>
即可。List<String>
是List<?>
的子类型,因此传递参数时不会发生错误。
开发自己的泛型类
泛型类与一般的Java
类基本相同,只是在类和接口定义上多出来了用<>
声明的类型参数。一个类可以有多个类型参数,如 MyClass<X, Y, Z>
。 每个类型参数在声明的时候可以指定上界。所声明的类型参数在Java类中可以像一般的类型一样作为方法的参数和返回值,或是作为域和局部变量的类型。但是由于类型擦除机制,类型参数并不能用来创建对象或是作为静态变量的类型。考虑下面的泛型类中的正确和错误的用法。
class ClassTest<X extends Number, Y, Z> {
private X x;
private static Y y; //编译错误,不能用在静态变量中
public X getFirst() {
//正确用法
return x;
}
public void wrong() {
Z z = new Z(); //编译错误,不能创建对象
}
}
总结
在使用泛型的时候可以遵循一些基本的原则,从而避免一些常见的问题。
在代码中避免泛型类和原始类型的混用(Effective Java中建议不要在代码中使用原始类型)。比如List和List不应该共同使用。这样会产生一些编译器警告和潜在的运行时异常。当需要利用JDK 5之前开发的遗留代码,而不得不这么做时,也尽可能的隔离相关的代码。 在使用带通配符的泛型类的时候,需要明确通配符所代表的一组类型的概念。由于具体的类型是未知的,很多操作是不允许的。 泛型类最好不要同数组一块使用。你只能创建new List<?>[10]这样的数组,无法创建new List[10]这样的。这限制了数组的使用能力,而且会带来很多费解的问题。因此,当需要类似数组的功能时候,使用集合类即可。 不要忽视编译器给出的警告信息。
二、类型擦除
一、各种语言中的编译器是如何处理泛型的
通常情况下,一个编译器处理泛型有两种方式:
1.Code specialization
。在实例化一个泛型类或泛型方法时都产生一份新的目标代码(字节码or二进制代码)。例如,针对一个泛型list
,可能需要 针对string
,integer
,float
产生三份目标代码。
2.Code sharing
。对每个泛型类只生成唯一的一份目标代码;该泛型类的所有实例都映射到这份目标代码上,在需要的时候执行类型检查和类型转换。
C++中的模板(template
)是典型的Code specialization
实现。C++编译器会为每一个泛型类实例生成一份执行代码。执行代码中integer list
和string list
是两种不同的类型。这样会导致代码膨胀(code bloat)。 C#里面泛型无论在程序源码中、编译后的IL
中(Intermediate Language,中间语言,这时候泛型是一个占位符)或是运行期的CLR中都是切实存在的,List<int>
与List<String>
就是两个不同的类型,它们在系统运行期生成,有自己的虚方法表和类型数据,这种实现称为类型膨胀,基于这种方法实现的泛型被称为真实泛型
。 Java语言中的泛型则不一样,它只在程序源码中存在,在编译后的字节码文件中,就已经被替换为原来的原生类型(Raw Type,也称为裸类型)了,并且在相应的地方插入了强制转型代码,因此对于运行期的Java语言来说,ArrayList<int>
与ArrayList<String>
就是同一个类。所以说泛型技术实际上是Java语言的一颗语法糖,Java语言中的泛型实现方法称为类型擦除,基于这种方法实现的泛型被称为伪泛型
。
C++
和C#
是使用Code specialization
的处理机制,前面提到,他有一个缺点,那就是会导致代码膨胀。另外一个弊端是在引用类型系统中,浪费空间,因为引用类型集合中元素本质上都是一个指针。没必要为每个类型都产生一份执行代码。而这也是Java编译器中采用Code sharing
方式处理泛型的主要原因。
Java
编译器通过Code sharing
方式为每个泛型类型创建唯一的字节码表示,并且将该泛型类型的实例都映射到这个唯一的字节码表示上。将多种泛型类形实例映射到唯一的字节码表示是通过类型擦除(type erasue
)实现的。
二、什么是类型擦除
前面我们多次提到这个词:类型擦除(type erasue
)**,那么到底什么是类型擦除呢?
类型擦除指的是通过类型参数合并,将泛型类型实例关联到同一份字节码上。编译器只为泛型类型生成一份字节码,并将其实例关联到这份字节码上。类型擦除的关键在于从泛型类型中清除类型参数的相关信息,并且再必要的时候添加类型检查和类型转换的方法。 类型擦除可以简单的理解为将泛型java代码转换为普通java代码,只不过编译器更直接点,将泛型java代码直接转换成普通java字节码。 类型擦除的主要过程如下: 1.将所有的泛型参数用其最左边界(最顶级的父类型)类型替换。(这部分内容可以看:Java泛型中extends和super的理解) 2.移除所有的类型参数。
三、Java编译器处理泛型的过程
code 1:
public static void main(String[] args) {
Map<String, String> map = new HashMap<String, String>();
map.put("name", "hollis");
map.put("age", "22");
System.out.println(map.get("name"));
System.out.println(map.get("age"));
}
反编译后的code 1:
public static void main(String[] args) {
Map map = new HashMap();
map.put("name", "hollis");
map.put("age", "22");
System.out.println((String) map.get("name"));
System.out.println((String) map.get("age"));
}
我们发现泛型都不见了,程序又变回了Java泛型出现之前的写法,泛型类型都变回了原生类型,
code 2:
interface Comparable<A> {
public int compareTo(A that);
}
public final class NumericValue implements Comparable<NumericValue> {
private byte value;
public NumericValue(byte value) {
this.value = value;
}
public byte getValue() {
return value;
}
public int compareTo(NumericValue that) {
return this.value - that.value;
}
}
反编译后的code 2:
interface Comparable {
public int compareTo( Object that);
}
public final class NumericValue
implements Comparable
{
public NumericValue(byte value)
{
this.value = value;
}
public byte getValue()
{
return value;
}
public int compareTo(NumericValue that)
{
return value - that.value;
}
public volatile int compareTo(Object obj)
{
return compareTo((NumericValue)obj);
}
private byte value;
}
code 3:
public class Collections {
public static <A extends Comparable<A>> A max(Collection<A> xs) {
Iterator<A> xi = xs.iterator();
A w = xi.next();
while (xi.hasNext()) {
A x = xi.next();
if (w.compareTo(x) < 0)
w = x;
}
return w;
}
}
反编译后的code 3:
public class Collections
{
public Collections()
{
}
public static Comparable max(Collection xs)
{
Iterator xi = xs.iterator();
Comparable w = (Comparable)xi.next();
while(xi.hasNext())
{
Comparable x = (Comparable)xi.next();
if(w.compareTo(x) < 0)
w = x;
}
return w;
}
}
第2个泛型类Comparable <A>
擦除后 A被替换为最左边界Object
。Comparable<NumericValue>
的类型参数NumericValue
被擦除掉,但是这直 接导致NumericValue
没有实现接口Comparable的compareTo(Object that)
方法,于是编译器充当好人,添加了一个桥接方法。 第3个示例中限定了类型参数的边界<A extends Comparable<A>>A
,A必须为Comparable<A>
的子类,按照类型擦除的过程,先讲所有的类型参数 ti换为最左边界Comparable<A>
,然后去掉参数类型A
,得到最终的擦除后结果。
四、泛型带来的问题
一、当泛型遇到重载:
public class GenericTypes {
public static void method(List<String> list) {
System.out.println("invoke method(List<String> list)");
}
public static void method(List<Integer> list) {
System.out.println("invoke method(List<Integer> list)");
}
}
上面这段代码,有两个重载的函数,因为他们的参数类型不同,一个是List<String>
另一个是List<Integer>
,但是,这段代码是编译通不过的。因为我们前面讲过,参数List<Integer>
和List<String>
编译之后都被擦除了,变成了一样的原生类型List,擦除动作导致这两个方法的特征签名变得一模一样。
二、当泛型遇到catch:
如果我们自定义了一个泛型异常类GenericException,那么,不要尝试用多个catch取匹配不同的异常类型,例如你想要分别捕获GenericException、GenericException,这也是有问题的。
三、当泛型内包含静态变量
public class StaticTest{
public static void main(String[] args){
GT<Integer> gti = new GT<Integer>();
gti.var=1;
GT<String> gts = new GT<String>();
gts.var=2;
System.out.println(gti.var);
}
}
class GT<T>{
public static int var=0;
public void nothing(T x){}
}
答案是——2!由于经过类型擦除,所有的泛型类实例都关联到同一份字节码上,泛型类的所有静态变量是共享的。
五、总结
1.虚拟机中没有泛型,只有普通类和普通方法,所有泛型类的类型参数在编译时都会被擦除,泛型类并没有自己独有的Class类对象。比如并不存在List<String>
.class或是List<Integer>.class
,而只有List.class
。 2.创建泛型对象时请指明类型,让编译器尽早的做参数检查(Effective Java,第23条:请不要在新代码中使用原生态类型) 3.不要忽略编译器的警告信息,那意味着潜在的ClassCastException
等着你。 4.静态变量是被泛型类的所有实例所共享的。对于声明为MyClass<T>
的类,访问其中的静态变量的方法仍然是 MyClass.myStaticVar
。不管是通过new MyClass<String>
还是new MyClass<Integer>
创建的对象,都是共享一个静态变量。 5.泛型的类型参数不能用在Java
异常处理的catch
语句中。因为异常处理是由JVM在运行时刻来进行的。由于类型信息被擦除,JVM
是无法区分两个异常类型MyException<String>
和MyException<Integer>
的。对于JVM
来说,它们都是 MyException
类型的。也就无法执行与异常对应的catch
语句。