Arthas高级用法：方法调用追踪与监控-优快云博客

Arthas高级用法：方法调用追踪与监控

【免费下载链接】arthas Alibaba Java Diagnostic Tool Arthas/Alibaba Java诊断利器Arthas 项目地址: https://gitcode.com/gh_mirrors/ar/arthas

本文深入探讨Arthas中四个核心监控命令的高级用法：watch命令用于实时监控方法参数、返回值和异常信息；trace命令用于方法调用链追踪与耗时分析；stack命令用于查看方法调用堆栈；monitor命令用于方法调用统计与性能指标监控。通过详细的语法解析、实战示例和最佳实践，帮助开发者掌握这些强大的诊断工具，快速分析和解决Java应用中的性能问题和异常情况。

watch命令：方法参数、返回值、异常监控

Arthas的watch命令是Java应用诊断中最为强大的工具之一，它能够实时监控方法的执行过程，捕获方法调用时的参数、返回值和异常信息。通过灵活的OGNL表达式，开发者可以精确地观察和分析方法的执行行为，是排查线上问题的利器。

watch命令的核心功能

watch命令提供了四个关键的观察时间点，每个时间点都能捕获不同的执行上下文信息：

mermaid

基本语法和参数详解

watch命令的基本语法结构如下：

watch [类名匹配模式] [方法名匹配模式] [观察表达式] [条件表达式] [选项参数]

核心参数说明

参数	缩写	说明	默认值
`class-pattern`	-	类名匹配模式	必填
`method-pattern`	-	方法名匹配模式	必填
`express`	-	OGNL观察表达式	`{params, target, returnObj}`
`condition-express`	-	条件过滤表达式	无
`--before`	`-b`	方法调用前观察	关闭
`--exception`	`-e`	异常抛出后观察	关闭
`--success`	`-s`	成功返回后观察	关闭
`--finish`	`-f`	方法结束后观察	开启
`--expand`	`-x`	对象展开深度	1
`--regex`	`-E`	启用正则匹配	关闭
`--limits`	`-n`	执行次数限制	100

常用观察表达式示例

1. 观察方法参数和返回值

# 观察所有参数、目标对象和返回值
watch com.example.Service processData "{params, target, returnObj}" -x 2

# 观察特定参数（第一个参数）
watch com.example.Service processData "params[0]" -x 3

# 观察参数的长度或属性
watch com.example.Service processData "params[0].length()"

2. 异常监控

# 只观察抛出异常的情况
watch com.example.Service processData "{params, throwExp}" -e -x 2

# 观察异常堆栈信息
watch com.example.Service processData "throwExp.stackTrace" -e

3. 条件过滤

# 只观察耗时超过100ms的调用
watch com.example.Service processData "{params, returnObj}" "#cost>100"

# 只观察特定参数值的调用
watch com.example.Service processData "{params, returnObj}" "params[0] != null && params[0].length() > 10"

# 观察特定异常类型的调用
watch com.example.Service processData "{params, throwExp}" "throwExp instanceof java.io.IOException"

高级用法示例

1. 多时间点观察

# 同时观察方法调用前和返回后的状态
watch com.example.Service processData "{params, target}" -x 2 -b -s

# 输出结果示例：
# ts=2024-01-15 10:30:25; [cost=0.5ms] result=@ArrayList[ @Object[@String["input"]], @Service[...] ]  # Before
# ts=2024-01-15 10:30:25; [cost=15.2ms] result=@ArrayList[ @Object[@String["processed_input"]], @Service[...] ]  # After

2. 对象属性深度观察

# 观察对象内部结构，深度为3级
watch com.example.UserService getUserInfo "target.userRepository" -x 3

# 观察集合类型的内容
watch com.example.DataService getDataList "returnObj[0].name" -x 2

3. 静态方法和字段访问

# 调用静态方法
watch com.example.Utils * "{params, @com.example.Utils@getTimestamp()}" 

# 访问静态字段
watch com.example.Config * "{params, @com.example.Config@VERSION}"

实战案例：用户服务监控

假设我们有一个用户服务，需要监控用户查询方法的执行情况：

# 监控用户查询服务，观察参数和返回值
watch com.example.UserService getUserById "{params[0], returnObj}" -x 2

# 只观察查询失败（返回null）的情况
watch com.example.UserService getUserById "{params[0], returnObj}" "returnObj == null"

# 观察查询耗时超过50ms的调用
watch com.example.UserService getUserById "{params[0], returnObj, #cost}" "#cost > 50"

# 监控异常情况，并获取详细错误信息
watch com.example.UserService getUserById "{params[0], throwExp.message, throwExp.stackTrace}" -e

性能优化建议

精确匹配：尽量使用具体的类名和方法名，避免使用通配符*，减少匹配的开销
条件过滤：使用条件表达式过滤不必要的调用，减少输出数据量
适度展开：根据实际需要设置-x参数，避免过度展开大对象消耗内存
限制次数：使用-n参数限制观察次数，避免产生大量日志数据
及时停止：诊断完成后使用stop命令停止观察，释放资源

常见问题排查

1. 观察表达式不生效

检查OGNL语法是否正确
确认变量名是否在Advice对象中存在
验证条件表达式是否符合预期

2. 性能影响过大

减少观察的深度（降低-x值）
增加条件过滤，减少观察频率
考虑使用采样方式观察

3. 内存占用过高

限制输出大小（使用-M参数）
减少对象展开深度
及时停止不再需要的观察任务

watch命令的强大之处在于其灵活性和实时性，通过合理的配置和使用，可以成为Java应用性能监控和问题排查的得力工具。掌握watch命令的各种用法，能够帮助开发者快速分析和解决复杂的线上问题。

trace命令：方法调用链追踪与耗时分析

Arthas的trace命令是性能分析和问题排查的利器，它能够深入方法内部，追踪整个调用链路的执行情况，精确识别性能瓶颈所在。通过字节码增强技术，trace命令在不修改源代码的情况下，为开发者提供了前所未有的方法级执行洞察能力。

trace命令的核心功能

trace命令通过在目标方法的字节码中插入监控代码，实现了对方法调用链的完整追踪。其主要功能包括：

调用链可视化：展示方法调用的完整层次结构
耗时精确统计：测量每个方法的执行时间，精确到毫秒
条件过滤：支持基于耗时、参数值等条件进行结果过滤
异常追踪：捕获并显示方法执行过程中的异常信息
深度控制：可配置追踪的调用深度，避免过度追踪

基本语法与参数详解

trace命令的基本语法格式如下：

trace [options] class-pattern method-pattern [condition-express]

常用参数说明：

参数	缩写	说明	示例
`--regex`	`-E`	启用正则表达式匹配	`trace -E org\.apache\.commons\.lang\.StringUtils isBlank`
`--limits`	`-n`	执行次数限制	`trace demo.MathGame run -n 5`
`--path`	`-p`	路径追踪模式	`trace -p Service `
`--skipJDKMethod`	无	是否跳过JDK方法	`trace demo.MathGame run --skipJDKMethod false`

实战示例：分析MathGame性能瓶颈

让我们通过一个具体的示例来演示trace命令的强大功能。假设我们有一个MathGame应用，其run方法执行较慢：

// MathGame.java 关键方法
public void run() throws InterruptedException {
    try {
        int number = random.nextInt()/10000;
        List<Integer> primeFactors = primeFactors(number);
        print(number, primeFactors);
    } catch (Exception e) {
        System.out.println(String.format("illegalArgumentCount:%3d, ", illegalArgumentCount) + e.getMessage());
    }
}

使用trace命令进行分析：

# 追踪MathGame的run方法，显示调用链和耗时
trace demo.MathGame run

# 输出结果示例：
Press Ctrl+C to abort.
Affect(class-cnt:1 , method-cnt:1) cost in 112 ms.
`---ts=2024-01-15 14:30:22;thread_name=main;id=1;is_daemon=false;priority=5;TCCL=sun.misc.Launcher$AppClassLoader@18b4aac2
    `---[12.345678ms] demo.MathGame:run()
        +---[0.123456ms] demo.MathGame:primeFactors() #12
        `---[1.234567ms] demo.MathGame:print() #15

高级用法：条件过滤与正则匹配

trace命令支持强大的条件表达式，可以精确过滤需要追踪的调用：

# 只显示耗时超过100ms的调用
trace *StringUtils isBlank '#cost>100'

# 使用正则表达式匹配多个类和方法
trace -E com\.example\.Service|org\.example\.Util method1|method2

# 基于参数值的条件过滤
trace *Controller * 'params[0].length() > 10'

调用链深度分析

trace命令能够展示完整的调用层次结构，帮助开发者理解代码执行流程：

mermaid

性能优化实战案例

通过trace命令发现，primeFactors方法存在性能问题：

# 发现primeFactors方法在某些情况下执行缓慢
trace demo.MathGame primeFactors '#cost>50'

# 输出显示某些数值的质因数分解耗时异常
`---[65.4321ms] demo.MathGame:primeFactors()
    +---[60.1234ms] 循环计算部分
    `---[5.3087ms] 结果收集部分

基于trace结果，我们可以优化算法实现：

// 优化后的primeFactors方法
public List<Integer> primeFactors(int number) {
    if (number < 2) {
        illegalArgumentCount++;
        throw new IllegalArgumentException("number is: " + number + ", need >= 2");
    }

    List<Integer> result = new ArrayList<>();
    // 优化：只检查到sqrt(number)
    for (int i = 2; i * i <= number; i++) {
        while (number % i == 0) {
            result.add(i);
            number /= i;
        }
    }
    if (number > 1) {
        result.add(number);
    }
    return result;
}

异常追踪与诊断

trace命令还能捕获方法执行过程中的异常信息：

# 追踪可能抛出异常的方法
trace demo.MathGame primeFactors

# 当异常发生时，trace会显示异常信息和抛出位置
`---[throws] demo.MathGame:primeFactors()
    !!! java.lang.IllegalArgumentException: number is: -123, need >= 2
    at demo.MathGame.primeFactors(MathGame.java:45)

最佳实践与注意事项

生产环境使用：trace命令会带来一定的性能开销，建议在测试环境或低峰期使用
适度追踪：避免追踪过于频繁的方法，以免产生大量输出数据
结合其他命令：与watch、stack等命令配合使用，获得更全面的分析视角
结果解读：注意区分方法本身耗时和子调用耗时，准确识别性能瓶颈

技术实现原理

trace命令的实现基于Java字节码增强技术，其工作原理如下：

mermaid

通过深度的方法调用追踪和精确的耗时分析，trace命令为Java应用性能优化提供了强有力的工具支持。掌握trace命令的使用，能够帮助开发者快速识别性能瓶颈，提升应用的整体性能表现。

stack命令：方法调用堆栈实时查看

Arthas的stack命令是一个强大的诊断工具，专门用于实时查看Java方法调用的完整堆栈信息。当某个方法被调用时，stack命令能够捕获并显示当前线程的完整调用链，帮助开发者快速了解方法调用的上下文环境。

核心功能与工作原理

stack命令的核心功能是通过字节码增强技术，在目标方法执行时插入监控代码，实时捕获并输出调用堆栈信息。其工作流程如下：

mermaid

命令语法与参数详解

stack命令的基本语法结构如下：

stack [options] class-pattern method-pattern [condition-express]

主要参数说明：

参数	缩写	描述	示例
`class-pattern`	-	类名匹配模式	`com.example.Service`
`method-pattern`	-	方法名匹配模式	`processRequest`
`condition-express`	-	条件表达式	`params[0].length>5`
`--regex`	`-E`	启用正则表达式匹配	`-E`
`--limits`	`-n`	执行次数限制	`-n 10`

实际应用示例

基础用法：查看方法调用堆栈

# 查看StringUtils.isBlank方法的调用堆栈
stack org.apache.commons.lang.StringUtils isBlank

执行后输出示例：

Press Ctrl+C to abort.
Affect(class-cnt:1 , method-cnt:1) cost in 286 ms.
ts=2024-01-15 10:11:45;thread_name=http-nio-8080-exec-5;id=25;is_daemon=true;priority=5;TCCL=org.apache.catalina.loader.ParallelWebappClassLoader@25131501
    @org.apache.commons.lang.StringUtils.isBlank()
        at com.example.Controller.processRequest(Controller.java:42)
        at javax.servlet.http.HttpServlet.service(HttpServlet.java:624)
        at javax.servlet.http.HttpServlet.service(HttpServlet.java:731)
        at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:303)
        at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:208)
        at org.apache.tomcat.websocket.server.WsFilter.doFilter(WsFilter.java:52)
        at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:241)
        at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:208)

高级用法：条件过滤

# 只有当参数长度大于5时才输出堆栈
stack *StringUtils isBlank params[0].length>5

# 只有当方法执行耗时超过100ms时才输出
stack *Service process '#cost>100'

# 使用正则表达式匹配类名
stack -E com\\.example\\.services\\..*Service process.*

技术实现深度解析

stack命令的技术实现基于Arthas的字节码增强框架，具体流程如下：

// StackAdviceListener.java 核心处理逻辑
private void finishing(Advice advice) {
    try {
        double cost = threadLocalWatch.costInMillis();
        boolean conditionResult = isConditionMet(command.getConditionExpress(), advice, cost);
        if (conditionResult) {
            StackModel stackModel = ThreadUtil.getThreadStackModel(
                advice.getLoader(), Thread.currentThread());
            stackModel.setTs(LocalDateTime.now());
            process.appendResult(stackModel);
            // 限制输出次数
            if (isLimitExceeded(command.getNumberOfLimit(), process.times().get())) {
                abortProcess(process, command.getNumberOfLimit());
            }
        }
    } catch (Throwable e) {
        logger.warn("stack failed.", e);
        process.end(-1, "stack failed: " + e.getMessage());
    }
}

堆栈信息采集机制

stack命令通过`ThreadUtil.getThread

【免费下载链接】arthas Alibaba Java Diagnostic Tool Arthas/Alibaba Java诊断利器Arthas 项目地址: https://gitcode.com/gh_mirrors/ar/arthas

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考