class类文件结构
class任何一个class文件都对应着唯一一个类或接口的定义信息,class文件是一组以8位字节为基础单位的二进制流,各个数据项目严格按照顺序紧凑地排列在class文件之中,中间没有添加任何分隔符,class文件格式采用一种类似于c语言结构体的伪结构来存储数据,这种伪结构只有两种数据类型:无符号数和表
无符号数:属于基本的数据类型,以u1,u2,u4,u8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。
表:由多个无符号数或者其他表作为数据项构成的复合数据类型,所有表都习惯性的以“_info”结尾。表用于描述有层次关系的复合结构的数据。
整个class文件本质上就是一张表,由以下表所示的数据项构成:
-
魔数:每个class文件的头4个字节称为魔数(magic number),它的唯一作用是确定整个文件是否为一个能被虚拟机接受的class文件。
-
class文件的版本:紧接着魔数的4个字节存储的是class文件的版本号:第5、6个字节是次版本号(minor version),第7、8个字节是主版本号。
-
常量池:可以理解为class文件之中的资源仓库,class文件空间中占用空间最大,也是class文件中第一个出现的表类型数据项目。常量池中主要存放两大类常量:字面量和符号引用,字面量比较接近Java语言层面的常量概念,如文本字符串、声明为final的常量等。而符号引用则属于编译原理方面的概念包括:类和接口的全限定名、字段的名称和描述符、方法的名称和描述符。
-
访问标志:用于识别一些类或者接口层次的访问信息,包括:这个class是类还是接口;是否定义public类型;是否定义abstract类型;是否被声明为final等。
-
类索引、父类索引与接口索引集合:class文件由这三项来确定这个类的继承关系。类索引用于确定这个类的全限定名,父类索引用于确定这个类的父类的全限定名。对于接口索引集合,入口的第一项-u2类型的数据为接口计数器(interfaces_count),表示索引表的容量。如果该类没有实现任何接口,则该计数器值为0,后面接口的索引表不再占用任何字节。
-
字段表集合:字段表用于描述接口或者类声明中声明的变量。字段包括类级变量以及实例级变量,但不包括在方法内部声明的局部变量。
-
方法表集合:class文件存储格式中对方法的描述与对字段的描述几乎采用了完全一致的方式,方法表的结构依次包括访问标志(access_flags)、名称索引(name_index)、描述符索引(descriptor_index)、属性表集合(attributes)几项。
-
属性表集合:在class文件、字段表、方法表都可以携带自己的属性表集合,用于描述某些场景专有的信息。
- code属性:Java程序方法体中的代码经过Javac编译器处理后,最终变为字节码指令存储在Code属性内。
- Exceptions属性:列举出方法中可能抛出的受查异常,也就是方法描述时在throws关键字后面列举的异常。
- LineNumberTable属性:Java源码行号与字节码行号之间的对应关系。
- LocalVariableTable属性:用于描述栈帧中局部变量表中的变量与Java源码中定义的变量之间的关系。
- SourceFile属性:用于记录生成这个class文件的源码文件名称。
- ConstantValue属性:通知虚拟机自动为静态变量赋值。
- InnerClasses属性:用于记录内部类与宿主类之间的额关联。
- Deprecated属性及Synthetic属性:Deprecated属性用于表示某个类、字段或者方法,可通过@deprecated注解进行设置。Synthetic属性代表此字段或者方法并不是由Java源码直接产生的,而是由编译器自行添加的。
- StackMapTable属性:在虚拟机类加载的字节码验证阶段被新类型检查验证器使用,目的在于代替以前比较消耗性能的基于数据流分析的类型推导验证器。
- Signature属性:任何类、接口、初始化方法或成员的泛型签名如果包含了类型变量或参数化类型,则Signature属性会为它记录泛型签名信息。
- BootstrapMethod属性:用于保存invokedynamic指令引用的引导方法限定符。
字节码指令
Java虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数组(称为操作码,Opcode)以及跟随其后的零至多个代表此操作所需参数(称为操作数,Operands)而构成的。
对于大部分与数据类型相关的字节码指令,他们的操作码助记符中都有特殊的字符来表示专门为哪种数据类型服务:i代表对int类型的数据操作,1代表long,s代表short,b代表byte,c代表char,f代表float,d代表double,a代表reference。
表6-31列举了Java虚拟机所支持的与数据类型相关的字节码指令,通过使用数据类型列所代表的特殊字符替换opcode列的指令模板中的T,就可以得到一个具体的字节码指令。
加载和存储指令:加载和存储指令用于将数据在栈帧中的局部变量表和操作数栈之间来回传输,包括:
- 将一个局部变量加载到操作栈:iload, iload_, lload, lload_, fload, fload_, dload, dload_, aload, aload_.
- 将一个数值从操作数栈存储到局部变量表:istore, istore_, lstore, lstore_, fstore, fstore_, dstore, dstore_, astore, astore_.
- 将一个常量加载到操作数栈:bipush, sipush, ldc, ldc_w, ldc2_w, aconst_null, iconst_m1, iconst_, lconst, fconst, dconst。
- 扩充局部变量表的访问索引的指令:wide。
运算指令:用于对两个操作数栈上的值进行某种特定运算,并把结果重新存入到操作栈顶。
- 加法指令:iadd, ladd, fadd, dadd.
- 减法指令:isub, lsub, fsub, dsub.
- 乘法指令:imul, lmul, fmul, dmul.
- 除法指令:idiv, ldiv, fdiv, ddiv.
- 求余指令:irem, lrem, frem, drem.
- 取反指令:ineg, lneg, fneg, dneg.
- 位移指令:ishl, ishr, iushr, lshl, lushr.
- 按位或指令:ior, lor.
- 按位与指令:iand, land.
- 按位异或指令:ixor, lxor.
- 局部变量自增指令:iinc.
- 比较指令:dcmpg, dcmpl, fcmpg, fcmpl, lcmp.
类型转换指令:可以将两种不同的数值类型进行相互转换
Java虚拟机直接支持(即转换时无需显式的转换指令)以下数值类型的宽化类型转换(即小范围类型向大范围类型的安全转换):
- int类型到long、float或者double类型。
- long类型到float、double类型。
- float类型到double类型。
相对的,处理窄化类型转换时,必须显式的使用转换指令来完成,包括:i2b, i2c, i2s, l2i, f2i, f2l, d2i, d2l, d2f.
对象创建和访问指令
- 创建类实例的指令:new
- 创建数组的指令:newarray, anewarray, multianewarray
- 访问类字段(static字段,或者称为类变量)和实例字段(非static字段,或者称为实例变量)的指令:getfield,putfield,getstatic,putstatic
- 把一个数组元素加载到操作数栈的指令:baload, caload, saload, iaload, laload, faload, daload, aaload
- 把一个操作数栈的值存储到数组元素中的指令:bastore, castore, sastore, iastore, fastore, dastore, aastore
- 取数组长度的指令:arraylength
- 检查类实例类型的指令:instanceof,checkcast
操作数栈管理指令
- 将操作数栈的栈顶一个或两个元素出栈:pop, pop2
- 复制栈顶一个或两个数值并将复制值或双份的复制值重新压入栈顶:dup, dup2, dup_x1, dup2_x1, dup_x2, dup2_x2
- 将栈最顶端的两个数值互换:swap
控制转移指令:可以让Java虚拟机有条件或无条件地从指定的位置指令而不是控制转移指令的下一条指令继续执行程序。
- 条件分支:ifeq, iflt, ifle, ifne, ifgt, ifge, ifnull, ifnonnull, if_icmpeq, if_icmpne, if_icmplt, if_icmpgt, if_icmple, if_icmpge, if_acmpeq, if_acmpne
- 复合条件分支:tableswitch, lookupswitch
- 无条件分支:goto, goto_w, jsr, jsr_w, ret
方法调用和返回指令
- invokevirtual指令用于调用对象的实例方法,根据对象的实际类型进行分派(虚方法分派)
- invokeinterface指令用于调用接口方法,它会在运行时搜索一个实现了这个接口方法的对象,找出合适的方法进行调用
- invokestatic指令用于调用类方法
- invokedynamic指令用于在运行时动态解析出调用点限定符所引用的方法,并执行该方法,前面4条指令的分派逻辑都固化在Java虚拟机内部,而invokedynamic指令的分派逻辑是由用户所设定的引导方法决定的。
- 方法调用指令与数据类型无关,而方法返回指令是根据返回值的类型区分的,包括ireturn(当返回值是boolean, byte, char, short和int类型时使用),lreturn, freturn, dreturn和areturn,另外还有一条return指令供声明为void的方法、实例初始化方法以及类和接口的类初始化方法使用。
异常处理指令:在Java程序中显式抛出异常的操作(throw语句)都有athrow指令来实现,除了用throw语句显式抛出异常情况外,Java虚拟机规范还规定了许多运行时异常会在其他Java虚拟机指令检测到异常状况时自动抛出。例如,整数运算中,当除数为零时,虚拟机会在idiv或ldiv指令中抛出ArithmeticException异常。
而在Java虚拟机中,处理异常(catch语句)不是由字节码指令来实现的,而是采用异常表来完成的。
同步指令:Java虚拟机支持方法级的同步和方法内部一段指令序列的同步,这两种同步结构都是使用管程(Monitor)来支持的。方法级的同步是隐式的,即无须通过字节码指令来控制,它实现在方法调用和返回操作之中,虚拟机可以从方法常量池的方法表结构中的ACC_SYNCHRONIZED访问标志得知一个方法是否声明为同步方法。同步一段指令集序列通常是由Java语言中的synchronized语句块来表示的,Java虚拟机的指令集中有monitorenter和monitorexit两条指令来支持synchronized关键字的语义,正确实现synchronized关键字需要Javac编译器与Java虚拟机两者共同协作支持。