如何分析、定位Android Native Crash

文章详细介绍了如何通过分析Native崩溃日志来定位C/C++代码中的错误及其原因,包括使用ndk-stack、addr2line和objdump等工具,以及常见崩溃类型如SIGSEGV、SIGFPE、SIGBUS和SIGILL的分析方法。此外,还提到了在线上处理Native崩溃的日志获取与自动上传至服务器进行分析的方法。

http://crash.163.com/index.do#news/!newsId=2

出于执行效率、业务安全、复用已有代码的需求,目前市场上越来越多的 Android App 采用 C/C++ 来实现其关键逻辑。C/C++ 有内存管理灵活、与 linux 底层联系更紧密、多种编程范式等特点,但也正是由于这些特点,使得普通开发人员在使用 C/C++ 开发时,更容易出让进程直接崩溃的 bug。所以能分析 C/C++ 崩溃日志并能从日志中分析出原因,成为 Android 开发人员一项必备技能。本文介绍如何通过分析 Native 崩溃日志来定位出错的 C/C++ 代码及出错原因。 

一、Native 崩溃日志格式

                        extern "C" JNIEXPORT int gen_stack(int i)
{
    if (i > 2)
        return gen_stack(i - 2) + gen_stack(i - 1);
    else
    {
        int *p = NULL;
        *p = 123;
        return 1;
    }
}

当调用 gen_stack(4) 发生 Native 崩溃时,一般 logcat 会打印如下格式的日志:

#00 pc 00000c1c /data/app-lib/com.testbugrpt-1/libtestNDKCrash.so (gen_stack+27)

#00 表示堆栈序号
pc 00000c1c 表示崩溃发生时 程序计数器 位于 libtestNDKCrash.so 偏移 0xc1c 处
gen_stack+27 表示0xc1c处正好是 gen_stack 符号(此处为函数名)偏移为27的一条指令

#01 pc 00000c0f /data/app-lib/com.testbugrpt-1/libtestNDKCrash.so (gen_stack+14) 

这是第二层堆栈,表示在离 libtestNDKCrash.so 0xc0f(也就是gen_stack + 14)位置的指令发生了一次函数调用,产生了第一层堆栈。

二、Native崩溃分析工具

在介绍工具之前,先简单讲一下有调试与无调试信息的两个版本 so 。 一个含有 native 代码的 app 项目的典型结构是这样的: 


                    --jni
                        --Android.mk
                        --其它源文件
                    --libs
                        --armeabi
                        --armeabi-v7a
                        --arm64-v8a
                        ....
                    --obj
                        --local
                            --armeabi
                            --armeabi-v7a
                            --arm64-v8a
                            ....
                    

通常一次编译会先生成一个有含有调试信息的 so, 路径通常是在 obj/local/ 各 abi 目录下,其中还有一些中间文件(比如.o文件);再通过对这些含有调试信息的 so 进行一次 strip , 产生对应的无调试信息 so, 放到 libs 目录下各 abi 目录中, 发布产品时,我们都是用这些 strip 后的 so。

一般的分析崩溃日志的工具都是利用含有调试信息的 so, 结合崩溃信息,分析崩溃点在源代码中的行号。

  1. 1、ndk-stack

    ndk-stack.exe位于ndk根目录。运行以下命令:

    D:\Android\android-ndk-r10c\ndk-stack.exe -sym E:\workspace\TestBugrpt\app\src\main\obj\local\armeabi-v7a\ -dump log.txt

    其中 log.txt 为崩溃日志,可以从 monitor 中点击保存得到。或者运行:

    adb logcat | ndk-stack.exe -sym E:\workspace\TestBugrpt\app\src\main\obj\local\armeabi-v7a\

    这样再运行程序,当崩溃发生时,ndk-stack.exe 会自动从 logcat 中获取崩溃日志。

    运行以上命令时,要 注意 -sym 参数指示的路径都是 obj\local\ 目录,同时要匹配对应机器的 abi 目录。可以得到:

    表明gen_stack + 27对应testNDKCrash.cpp的第13行,即*p = 123; 查看对应的源代码,可以发现是此处的写空指针导致崩溃。

  2. 2、addr2line

    addr2line 一般位于 android-ndk-r10c\toolchains\arm-linux-androideabi-4.9\prebuilt\windows\bin\ ,其路径与文件名因操作系统、 abi 不同而有所不同。

    可以运行如下命令:

    arm-linux-androideabi-addr2line.exe -e E:\workspace\TestBugrpt\app\src\main\obj\local\armeabi-v7a\libtestNDKCrash.so 00000c1c 00000c0f

    与 ndk-stack 不同的是,ndk-stack 接受一个 obj/local/abi 目录为参数,而 addr2line 接受 local 下一个具体的 so 文件路径为参数。其中 00000c1c 00000c0f 就是上面第一节中分析的崩溃点离libtestNDKCrash.so的偏移量,即

    得到输出:

    E:/workspace/TestBugrpt/app/src/main//jni/testNDKCrash.cpp:13

    E:/workspace/TestBugrpt/app/src/main//jni/testNDKCrash.cpp:9

    分别对应两个偏移在源码中的位置。

  3. 3、objdump

    上面两种工具都是将崩溃点对应到源码再进行分析,objdump 则是可以在汇编层对崩溃原因进行分析。当然这要求开发人员了解一些 arm/x86 汇编知识。

    objdump 也是 ndk 自带的一个工具,通常与 addr2line 在同一目录。运行如下命令:

    arm-linux-androideabi-objdump.exe -S -D E:\workspace\TestBugrpt\app\src\main\obj\local\armeabi-v7a\libtestNDKCrash.so > e:\dump.txt

    由于输出比较多,将输出重定位到 e:\\dump.txt 便于查看。打开 dump.txt , 定位到 00000c1c :

                                int *p = NULL;
                                *p = 123;
    
                                c16: 2300 movs r3, #0
                                c18: 227b movs r2, #123 ; 0x7b
                                c1a: 1c68 adds r0, r5, #1
                                c1c: 601a str r2, [r3, #0]

    上面两句是源代码,下是对应的Arm汇编。

    如果要分析的 so 没有调试信息, ndk-stack 与 addr2line 就无能为力了,只有 objdump 还能派上用场。当然,这种情况下有更好用的工具,比如 IDA Pro。不过那又是另外一个故事了。

三、常见崩溃类型及原因

  1. 1、SIGSEGV 段错误
    SEGV_MAPERR 要访问的地址没有映射到内存空间。 比如上面对空指针的写操作, 当指针被意外复写为一个较小的数值时。
    SEGV_ACCERR 访问的地址没有权限。比如试图对代码段进行写操作。
  2. 2、SIGFPE 浮点错误,一般发生在算术运行出错时。
    FPE_INTDIV 除以0
    FPE_INTOVE 整数溢出
  3. 3、SIGBUS 总线错误
    BUS_ADRALN 地址对齐出错。arm cpu比x86 cpu 要求更严格的对齐机制,所以在 arm cpu 机器中比较常见。
  4. 4、SIGILL 发生这种错误一般是由于某处内存被意外改写了。
    ILL_ILLOPC 非法的指令操作码
    ILL_ILLOPN 非法的指令操作数
  5. 5、当调用堆栈中出现 stack_chk_fail 函数时,一般是由于比如 strcpy 之类的函数调用将栈上的内容覆盖,而引起栈检查失败。

更多信号信息请参考文献 [1]。 

四、线上Native崩溃处理

对于第二节中的分析方法,前提是可以得到 Native 层崩溃日志。由于 Android 设备的碎片化,必然存在在测试时覆盖不到的机型。如果 App 在用户机器上发生了崩溃,如何获取 Native 崩溃日志?

目前网易云捕已经实现了对 Java、Native 层崩溃日志的获取,并能自动上传到服务器进行分析。具体功能及接入方法请参考网易云捕集成说明


参考文献:
[1] http://man7.org/linux/man-pages/man2/sigaction.2.html
[2] http://blog.youkuaiyun.com/xyang81/article/details/42319789
### 分析Android Native层的Crash问题 #### 定位Native Crash问题 在Android平台中,Native Crash通常发生在C/C++层面。为了定位此类问题,可以使用`ndk-stack`工具来解析崩溃日志。具体步骤包括将崩溃产生的堆栈信息与对应的`.so`文件进行符号化处理,从而确定具体的错误位置[^3]。 #### 解决Native Crash问题 解决Native Crash问题的关键在于理解其根本原因。以下是一些常见的错误类型及其解决方案: 1. **SEGV_MAPERR** 这种错误通常表示程序尝试访问无效的内存地址。例如,访问未分配的指针或超出数组边界。需要检查代码中是否存在空指针解引用或越界操作[^4]。 2. **SEGV_ACCERR** 此类错误表明程序试图以非法方式访问合法地址(如写入只读内存)。可以通过静态代码分析工具(如Clang-Tidy)检测潜在的内存访问问题,并确保正确的内存权限设置。 3. **堆栈溢出** 如果函数调用层次过深或局部变量占用过多内存,可能会导致堆栈溢出。可以通过优化递归逻辑或减少大对象的声明来缓解此问题[^1]。 4. **多线程问题** 在多线程环境中,数据竞争和同步问题可能导致不可预测的行为。使用适当的锁机制(如`std::mutex`)或无锁编程技术可以避免这些问题[^2]。 #### 示例:使用`ndk-stack`工具定位问题 假设有一个崩溃日志如下: ``` 06-13 15:44:04.472 I/DEBUG ( 175): pid: 18463, tid: 18463, timestamp: 06-13 15:44:04.480 , name: ndroid.settings >>> com.android.settings <<<< 06-13 15:44:04.472 I/DEBUG ( 175): signal 11 (SIGSEGV), code 1 (SEGV_MAPERR), fault addr c018620d ``` 可以通过以下命令解析堆栈信息: ```bash ndk-stack -sym <path_to_symbols> -dump <path_to_crash_log> ``` 其中`<path_to_symbols>`指向包含符号表的`.so`文件目录,而`<path_to_crash_log>`是崩溃日志文件的位置。解析后的输出会显示具体的函数调用链及错误发生的位置[^3]。 #### 注意事项 - 确保`.so`文件未被剥离(stripped),否则无法正确解析符号信息。 - 使用调试版本构建应用程序,以便生成完整的符号表。 - 在生产环境中,可以考虑集成第三方崩溃报告服务(如Firebase Crashlytics),以捕获和分析Native Crash[^1]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值