arthas原理系列文章:
前言
这周的某天突然爆出线上查询卖家订单异常的报警,因为这个接口量比较大,赶紧排查马上介入看了下,找到日志后发现这个接口的实现抛了NPE,但是在日志里看不到堆栈。因为封网的时间已经很长了,应该不是发布导致的。但无论如何,要先定位到抛NPE的地方,才能知道是哪里出了问题
消失的堆栈
我们用下面的代码来做一次测试
public class DemoApplication {
public static void main(String[] args) {
// SpringApplication.run(DemoApplication.class, args);
for (int i = 0; i < Integer.MAX_VALUE; i++) {
System.out.println("times:" + i + " , result:" + testExceptionTrunc());
}
}
public static boolean testExceptionTrunc() {
try {
// 人工构造异常抛出的场景
((Object)null).getClass();
} catch (Exception e) {
if (e.getStackTrace().length == 0) {
try {
// 堆栈消失的时候当前线程休眠5秒,便于观察
Thread.sleep(5000);
} catch (InterruptedException interruptedException) {
// do nothing
}
return true;
}
}
return false;
}
}
这段代码的运行结果是:
可以看到,在我的机器上循环到底13441次的时候堆栈丢失了,注意这个值可能在不同的机器上是不同的。
Java的即时编译(JIT)
之所以会有这样的运行结果,是因为Java有JIT(Just In Time)的编译机制,如下图所示
为了实现WORA (Write once, run anywhere)Java会先将源代码编译成字节码,然后在运行时再转换为机器码,虽然提升了通用性,但是字节码转换为机器码的速度会直接影响到整个Java程序的运行速度,因此JVM在实现的时候会将一些热点代码直接编译成Native Code,运行时省去了从字节码转化这一步,以此达到提升性能的目的,整个Java代码运行时的流程可以总结成下面这张图:
那什么样的代码才算是热点代码呢?有两种情况:
-
被多次调用的方法
-
被多次调用的循环体
上面的测试方法体因为一直在被循环调,被判定成了热点代码,从而直接编译为Native Code,因此丢失了堆栈
利用Arthas观察丢失的堆栈
假如我们继续运行上面的示例代码,等到这段代码被即时编译导致堆栈丢失后启动arthas,并用watch命令观察示例方法,会发现一个有趣的现象:
watch com.idealism.demo.DemoApplication testExceptionTrunc '{returnObj, throwExp}'
丢失的堆栈又回来了!后面的文章我们会讲到arthas的原理,这里我们稍微提一下,arthas使用字节码增强技术,在应用程序的字节码中注入新的字节码,这就破坏了原来的热点代