解锁Linux内核：动态追踪事件添加全攻略

大雨淅淅

已于 2025-05-05 14:42:09 修改

阅读量667

点赞数 28

CC 4.0 BY-SA版权

分类专栏： # linux网络协议栈文章标签： linux 运维服务器网络安全 web安全

于 2025-05-05 14:40:16 首次发布

本文链接：https://blog.youkuaiyun.com/xiaoyingxixi1989/article/details/147700970

（三）使用 ftrace 添加动态追踪事件

一、Linux 动态追踪初相识

在 Linux 的世界里，动态追踪技术堪称一项强大的利器，它允许我们在系统或应用程序运行时实时监视和分析其行为。简单来说，动态追踪就像是给系统或应用程序安装了无数双 “隐形的眼睛”，能够在不影响其正常运行的情况下，深入到系统的各个角落，获取关键信息。

以往在排查系统问题或优化性能时，传统的方法往往需要我们煞费苦心。比如使用 GDB 设置断点来调试应用程序，可这就像是在高速行驶的汽车上突然急刹车，会中断应用的正常运行；又或者在代码中增加大量日志，从密密麻麻的日志中寻找线索，这不仅需要重新编译和部署，还可能因日志量过大而让人眼花缭乱，难以快速定位问题。

而动态追踪技术的出现，彻底打破了这些困境。它通过巧妙的探针机制，能够在不修改内核和应用程序代码的前提下，采集到丰富的运行信息，帮助我们精准地分析和定位问题。无论是排查系统故障、优化性能瓶颈，还是监控系统安全，动态追踪技术都能大显身手。例如，当我们遇到某个应用程序突然出现性能下降的情况时，动态追踪技术可以实时捕获该应用程序的函数调用、系统调用以及资源使用情况等信息，让我们能够迅速找到导致性能问题的根源，而无需停止服务或重新部署应用程序。

二、Linux 动态追踪工具大盘点

（一）ftrace

ftrace 作为 Linux 内核内置的强大跟踪工具，在调试和分析内核行为方面发挥着关键作用。它的一大显著特性是通过 debugfs 以普通文件形式提供访问接口，这使得开发者无需借助额外工具，仅通过简单的文件读写操作，就能与 ftrace 进行交互，实现对内核或应用程序运行事件的跟踪。

在使用 ftrace 跟踪内核函数或事件时，具体步骤如下：首先，要确保系统已挂载 debugfs，可通过 “mount | grep debugfs” 或 “ls /sys/kernel/debug/tracing” 命令进行查看。若未挂载，使用 “mount -t debugfs nodev /sys/kernel/debug” 命令挂载。接着，进入 “/sys/kernel/debug/tracing” 目录，这里提供了丰富的跟踪配置选项。例如，通过 “cat available_tracers” 命令可查看当前系统支持的跟踪器，其中 “function” 用于跟踪函数执行，“function_graph” 则能展示直观的函数调用关系图，这两者是最常用的跟踪器。确定跟踪器后，使用 “echo 跟踪器名字 > current_tracer” 命令进行设置。若要跟踪特定函数，如 “do_sys_open”，可将其写入 “set_graph_function” 文件。同时，还能通过 “echo funcgraph-proc > trace_options” 配置 trace 属性以显示当前进程，“echo > trace” 清除 trace 缓存，“echo 1 > tracing_on” 开启跟踪。当产生相关函数调用后，“echo 0 > tracing_on” 关闭跟踪，最后使用 “cat trace” 命令查看跟踪结果。在 trace 文件中，会详细记录函数调用的相关信息，包括执行的 CPU、任务名称和进程 PID、函数执行延迟以及函数调用关系图，通过不同级别的缩进，能清晰展示各函数间的调用关系。比如，在跟踪文件系统操作时，通过 ftrace 可以清晰地看到文件打开、读取、写入等函数的调用顺序和时间消耗，帮助开发者深入了解文件系统的运行机制，排查可能出现的性能问题或错误。

（二）perf

perf 是 Linux 系统中一款功能强大的性能分析工具，尤其在查找应用程序或内核热点函数方面表现出色，堪称定位性能瓶颈的得力助手。它能够收集丰富的性能数据，涵盖 CPU 使用率、内存访问、函数调用等多个关键方面，为全面深入地分析系统性能提供了坚实的数据基础。

使用 perf 动态添加事件时，首先可通过 “perf list” 命令查询系统所有支持的事件，这些事件包括硬件性能事件（如 CPU 时钟周期 “cycles”、指令计数 “instructions”、缓存命中和未命中 “cache-references”“cache-misses” 等）、软件性能事件（像上下文切换 “context-switches”、进程调度 “sched:sched_switch”、tick 数等）以及 tracepoints（内核中静态 tracepoint 所触发的事件，如 “syscalls:sys_enter” 表示系统调用进入事件）。若要对特定事件进行追踪，比如跟踪内核函数 “do_sys_open”，先执行 “perf probe --add do_sys_open” 命令添加探针，成功后，可使用 “perf record -e probe:do_sys_open -aR sleep 10” 对 10 秒内的 “do_sys_open” 进行采样。采样完成后，通过 “perf script” 查看采样结果，其中会列出调用该函数的任务名称、进程 PID 以及运行的 CPU 等信息。若想追踪函数参数，可通过 “perf probe -V do_sys_open” 查询参数，再添加带参数的探针进行追踪。此外，perf 还支持实时分析，例如 “perf top” 能实时显示 CPU 占用最高的函数和指令，通过不断更新的界面，开发者可以直观地看到系统中哪些函数正在消耗大量的 CPU 资源，从而快速定位性能热点，及时进行优化。

（三）eBPF

eBPF，全称 Extended Berkeley Packet Filter，是 Linux 内核中一项极具创新性和强大功能的动态追踪和性能分析框架。它的工作原理基于一个精心设计的虚拟机机制，拥有自定义的 64 位 RISC 指令集，这使得开发者能够编写特定的 BPF 程序，并在 Linux 内核中安全、高效地运行。具体来说，开发者先使用 C 语言或高层工具（如 bcc、bpftrace）编写 eBPF 程序，随后将其编译为 BPF 字节码，这个过程类似于 Java 字节码的生成。编译后的字节码会被加载到内核的特定钩子（hook）点上，当钩子函数被触发时，内核便会在 eBPF 虚拟机这个安全沙盒中执行字节码，从而实现对系统事件的精确捕获和处理。

BCC（BPF Compiler Collection）工具集对 eBPF 进行了巧妙封装，极大地简化了 eBPF 的使用难度。它将 eBPF 中的各种事件源（如 kprobe、uprobe、tracepoint 等）和数据操作（Maps）转化为 Python 接口（也支持 lua），让开发者通过编写简单的脚本就能充分利用 eBPF 的强大功能。以跟踪内核函数调用为例，使用 BCC 工具集中的 “trace” 工具，执行 “/usr/share/bcc/tools/trace 'do_sys_open "% s", arg2' -T” 命令，即可跟踪 “do_sys_open