字节码指令
1. 字节码指令介绍
Java虚拟机指令由一个字节长度的、代表着某种特定操作含义的数字(称为操作码,Opcode)以及跟随其后的零至多个代表此操作所需参数(称为操作数,Operands)而构成。由于Java虚拟机采用面向操作数栈而不是寄存器的结构,所以大多数的指令都不包含操作数,只有一个操作码。
由于限制了Java虚拟机操作码的长度为一个字节(即 0~255),这意味着指令集的操作码总数不可能超过256条。熟悉虚拟机的指令对于动态字节码生成、反编译Class文件、Class文件修补都有着非常重要的价值。
在Java虚拟机的指令集中,大多数的指令都包含了其操作所对应的数据类型信息。例如iload指令用于从局部变量表中加载int型的数据到操作数栈中,而fload指令加载的则是float类型的数据。特殊的对于boolean、byte、short和char类型数据的操作,实际上都是使用相应的int类型作为运算类型。
1. 加载与存储指令
1.1 作用
加载和存储指令用于将数据从栈帧的局部变量表和操作数栈之间来回传递。
1.2 常用指令
- 【局部变量压栈指令】将一个局部变量加载到操作数栈:
xload
、xload_<n>
(其中x为i、l、f、d、a,n为0到3) - 【常量入栈指令】将一个常量加载到操作数栈:
bipush
、sipush
、ldc
、ldc_w
、ldc2_w
、aconst_null
、iconst_m1
、iconst_<i>
、lconst_<l>
、fconst_<f>
、dconst_<d>
- 【出栈装入局部变量表指令】将一个数值从操作数栈存储到局部变量表:
xstore
、xstore_<n>
(其中x为i、l、f、d、a,n为0到3) - 扩充局部变量表的访问索引的指令:
wide
提示
有一部分是以尖括号结尾的(例如
iload_<n>
)。这些指令助记符实际上代表了一组指令(例如iload_<n>
代表了iload_0
、iload_1
、iload_2
和iload_3
这几个指令)。如果n超过3了,可以使用通用的指令iload n
:iload_0
:将局部变量表中索引为0位置上的数据压入操作数栈中。iload 4
:将局部变量表中索引为4位置上的数据压入操作数栈中。
操作数栈是临时存放数据的地方,局部变量表是存放方法中的局部变量的位置。
2. 算术指令
2.1 作用
算术指令用于对两个操作数栈上的值进行某种特定运算,并把结果重新压入操作数栈。
2.2 所有指令
- 加法指令:
iadd
、ladd
、fadd
、dadd
- 减法指令:
isub
、lsub
、fsub
、dsub
- 乘法指令:
imul
、lmul
、fmul
、dmul
- 除法指令:
idiv
、ldiv
、fdiv
、ddiv
- 求余指令:
irem
、lrem
、frem
、drem
//remainder
:余数 - 取反指令:
ineg
、lneg
、fneg
、dneg
//negation
:取反 - 自增指令:
iinc
- 位移指令:
ishl
、ishr
、iushr
、lshl
、lshr
、lushr
- 按位或指令:
ior
、lor
- 按位与指令:
iand
、land` - 按位异或指令:
ixor
、lxor
- 比较指令:
dcmpg
、dcmpl
、fcmpg
、fcmpl
、lcmp
3. 类型转换指令
类型转换指令可以将两种不同的数值类型进行相互转换,一般用于实现用户代码中的显式类型转换操作。
3.1 宽化类型转换
指的是小范围类型向大范围类型的转换,转换指令如下:
- 从int类型到long、float或者double类型。对应的指令为:
i2l
、i2f
、i2d
- 从long类型到float、double类型。对应的指令为:
l2f
、l2d
- 从float类型到double类型。对应的指令为:
f2d
3.2 窄化类型转换
Java虚拟机也直接支持以下窄化类型转换:
- 从int类型至byte、short或者char类型。对应的指令有:
i2b
、i2s
、i2c
- 从long类型到int类型。对应的指令有:
l2i
- 从float类型到int或者long类型。对应的指令有:
f2i
、f2l
- 从double类型到int、long或者float类型。对应的指令有:
d2i
、d2l
、d2f
转换过程很可能会导致数值丢失精度, 但是数值类型的窄化转换指令不可能导致虚拟机抛出运行时异常(JVM规范设计的就这样)
4. 对象的创建与访问指令
虚拟机平台从字节码层面就对面向对象做了深层次的支持。有一系列指令专门用于对象操作,可进一步细分为创建指令、字段访问指令、数组操作指令、类型检查指令。
4.1 创建指令
虽然类实例和数组都是对象,但Java虚拟机对类实例和数组的创建与操作使用了不同的字节码指令:
- 创建类实例的指令:
new
- 创建数组的指令:
newarray
、anewarray
、multianewarray
。
4.2 字段访问指令
对象创建后,就可以通过对象访问指令获取对象实例或数组实例中的字段或者数组元素:
- 访问类字段(static字段,或者称为类变量)的指令:
getstatic
、putstatic
- 访问类实例字段(非static字段,或者称为实例变量)的指令:
getfield
、putfield
4.3 数组操作指令
数组操作指令主要有:xastore和xaload指令。具体为:
- 把一个数组元素加载到操作数栈的指令:
baload
、caload
、saload
、iaload
、laload
、faload
、daload
、aaload
- 将一个操作数栈的值存储到数组元素中的指令:
bastore
、castore
、sastore
、iastore
、lastore
、fastore
、dastore
、aastore
4.4 类型检查指令
检查类实例或数组类型的指令:
- 指令checkcast用于检查类型强制转换是否可以进行。如果可以进行,那么checkcast指令不会改变操作数栈,否则它会抛出ClassCastException异常。
- 指令instanceof用来判断给定对象是否是某一个类的实例,它会将判断结果压入操作数栈。
5. 方法调用与返回指令
5.1 方法调用指令
invokevirtual
指令用于调用对象的实例方法,根据对象的实际类型进行分派(虚方法分派),支持多态。这也是Java语言中最常见的方法分派方式。invokeinterface
指令用于调用接口方法,它会在运行时搜索由特定对象所实现的这个接口方法,并找出适合的方法进行调用。invokespecial
指令用于调用一些需要特殊处理的实例方法,包括实例初始化方法(构造器)、私有方法和父类方法。这些方法都是静态类型绑定的,不会在调用时进行动态派发。invokestatic
指令用于调用命名类中的类方法(static方法)。这是静态绑定的。invokedynamic
:调用动态绑定的方法,这个是JDK 1.7后新加入的指令。用于在运行时动态解析出调用点限定符所引用的方法,并执行该方法。前面4条调用指令的分派逻辑都固化在java虚拟机内部,而invokedynamic
指令的分派逻辑是由用户所设定的引导方法决定的。
5.2 方法返回指令
方法调用结束前,需要进行返回。方法返回指令是根据返回值的类型区分的:
- 包括
ireturn
(当返回值是boolean、byte、char、short和int类型时使用)、lreturn
、freturn
、dreturn
和areturn
。 return
指令供声明为void的方法、实例初始化方法以及类和接口的类初始化方法使用。
6. 操作数栈管理指令
JVM提供的操作数栈管理指令,可以用于直接操作操作数栈的指令:
- 将一个或两个元素从栈顶弹出,并且直接废弃:
pop
,pop2
; - 复制栈顶一个或两个数值并将复制值或双份的复制值重新压入栈顶:
dup
,dup2
,dup_x1
,dup2_x1
,dup_x2
,dup2_x2
; - 将栈最顶端的两个Slot数值位置交换:
swap
。Java虚拟机没有提供交换两个64位数据类型(long、double)数值的指令。 - 指令
nop
,是一个非常特殊的指令,它的字节码为0x00。和汇编语言中的nop一样,它表示什么都不做。这条指令一般可用于调试、占位等。
7. 控制转移指令
程序流程离不开条件控制,为了支持条件跳转,虚拟机提供了大量字节码指令,大体上可以分为比较指令、条件跳转指令、比较条件跳转指令、多条件分支跳转指令、无条件跳转指令等。
7.1 条件跳转指令
条件跳转指令有:ifeq
, iflt
, ifle
, ifne
, ifgt
, ifge
, ifnull
, ifnonnull
。这些指令都是弹出栈顶元素,测试它是否满足某一条件,如果满足条件,则跳转到给定位置。
7.2 比较条件跳转指令
比较条件跳转指令执行比较和跳转两个步骤,常见的指令有:if_icmpeq
、if_icmpne
、if_icmplt
、if_icmpgt
、if_icmple
、if_icmpge
、if_acmpeq
和if_acmpne
。
这些指令都接收两个字节的操作数作为参数,用于计算跳转的位置。同时在执行指令时,栈顶需要准备两个元素进行比较。指令执行完成后,栈顶的这两个元素被清空,且没有任何数据入栈。如果预设条件成立,则执行跳转,否则,继续执行下一条语句。
7.3 多条件分支跳转指令
多条件分支跳转指令是专为switch-case语句设计的,主要有tableswitch
和lookupswitch
:
7.4 无条件跳转指令
目前主要的无条件跳转指令为goto
。指令goto
接收两个字节的操作数,共同组成一个带符号的整数,用于指定指令的偏移量,指令执行的目的就是跳转到偏移量给定的位置处。
8. 异常处理指令
8.1 抛出异常指令
在Java程序中显示抛出异常的操作(throw语句)都是由athrow
指令来实现。除了使用throw语句显示抛出异常情况之外,JVM规范还规定了许多运行时异常会在其他Java虚拟机指令检测到异常状况时自动抛出。例如,在之前介绍的整数运算时,当除数为零时,虚拟机会在idiv
或ldiv
指令中抛出ArithmeticException异常。
8.2 异常处理与异常表
在Java虚拟机中,处理异常(catch语句)不是由字节码指令来实现的(早期使用jsr
、ret
指令),而是采用异常表来完成的。异常表保存了每个异常处理信息,包括:
- 起始位置
- 结束位置
- 程序计数器记录的代码处理的偏移地址
- 被捕获的异常类在常量池中的索引
当一个异常被抛出时,JVM会在当前的方法里寻找一个匹配异常类型的处理,如果没有找到,这个方法会强制结束并弹出当前栈帧,并且异常会重新抛给上层调用的方法(在调用方法栈帧)。如果在所有栈帧弹出前仍然没有找到合适的异常处理,这个线程将终止。如果这个异常在最后一个非守护线程里抛出,将会导致JVM自己终止,比如这个线程是个main线程。
9. 同步控制指令
java虚拟机支持两种同步结构:方法级的同步和方法内部一段指令序列的同步,这两种同步都是使用monitor
来支持的。
9.1 方法级的同步
方法级的同步:是隐式的, 即无须通过字节码指令来控制,它实现在方法调用和返回操作之中。虚拟机可以从方法常量池的方法表结构中的ACC_SYNCHRONIZED访问标志得知一个方法是否声明为同步方法。
当调用方法时,调用指令将会检查方法的ACC_SYNCHRONIZED访问标志是否设置。如果设置了,执行线程将先持有同步锁,然后执行方法。最后在方法完成(无论是正常完成还是非正常完成)时释放同步锁。
在方法执行期间,执行线程持有了同步锁,其他任何线程都无法再获得同一个锁。
如果一个同步方法执行期间抛出了异常,并且在方法内部无法处理此异常,那这个同步方法所持有的锁将在异常抛到同步方法之外时自动释放。
9.2 方法内指定指令序列的同步
通常由java中的synchronized语句块来表示方法内指定指令序列。同步功能是由jvm的指令集有monitorenter
和monitorexit
两条指令来支持的。
当一个线程进入同步代码块时,它使用monitorenter
指令请求进入。如果当前对象的监视器计数器为0,则它会被准许进入,若为1,则判断持有当前监视器的线程是否为自己,如果是,则进入,否则进行等待,直到对象的监视器计数器为0,才会被允许进入同步块。当线程退岀同步块时,需要使用monitorexit
声明退出。
在Java虚拟机中,任何对象都有一个监视器与之相关联,用来判断对象是否被锁定,当监视器被持有后,对象处于锁定状态。
指令monitorenter和monitorexit在执行时,都需要在操作数栈顶压入对象,之后monitorenter和monitorexit的锁定和释放都是针对这个对象的监视器进行的。
为了保证在方法异常完成时monitorenter和monitorexit指令依然可以正确配对执行,编译器会自动产生一个异常处理器,这个异常处理器声明可处理所有的异常,它的目的就是用来执行monitorexit指令