ARM64 BTI指令阻止间接分支提升固件安全性

原创于 2025-12-07 15:51:36 发布 · 592 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#ARM64 #BTI #固件安全

AI助手已提取文章相关产品：

用硬件锁住控制流：ARM64 BTI 如何重塑固件安全防线 🔒

你有没有想过，一个小小的 ret 指令，竟然能成为整个系统沦陷的起点？

在嵌入式世界里，这并不是危言耸听。攻击者不需要破解加密算法，也不必暴力爆破密码——他们只需要找到一段以 ret 结尾的合法代码片段（gadget），再精心拼接成一条“跳转链”，就能悄无声息地劫持程序执行流程。这就是臭名昭著的 ROP（Return-Oriented Programming）攻击 。

而更可怕的是，这类攻击往往发生在最不该出事的地方： UEFI 固件、Bootloader、安全监控器（Secure Monitor）……这些运行在 EL3 特权级、构成系统信任根的代码模块 。一旦被攻破，整个设备的信任链就彻底崩塌了。

传统的软件防护手段如 Clang 的 CFI（Control-Flow Integrity）虽然有一定效果，但代价高昂：编译器插桩带来显著性能损耗，且容易被高级攻击绕过。更重要的是，在资源受限的固件环境中，这种“重量级”方案根本难以部署。

于是，ARM 在 ARMv8.5-A 架构中扔下了一枚重磅炸弹： Branch Target Identification（BTI） ——一种从硬件层面强制实施控制流完整性的新机制。

它不靠复杂的类型检查，也不依赖庞大的元数据表；它的核心思想简单得令人发指： 只有标了记号的地方，才允许跳过去。

控制流劫持的本质是什么？🎯

要理解 BTI 的价值，我们得先回到问题的源头：为什么间接分支会成为攻击者的突破口？

想象一下你的程序是一个火车站，每条轨道代表一条执行路径。正常情况下，列车（控制流）沿着预定轨道行驶，从 A 站到 B 站再到 C 站，井然有序。

但如果有黑客偷偷修改了道岔控制器呢？

比如，他利用缓冲区溢出漏洞，把本该指向函数 func_A() 的函数指针改成了指向某个 gadget 的地址。当程序执行 blr x0 时，CPU 不会去问“这个目标地址是不是合法的函数入口？”——它只会机械地跳过去。

于是，列车脱轨了。

这类攻击之所以有效，是因为现代处理器对“哪里可以跳”这件事几乎没有任何限制。只要地址可读可执行，就可以作为跳转目标。而 ROP/JOP 攻击正是利用这一点，将无数个看似无害的小代码块串联起来，最终实现任意代码执行。

💡 关键洞察： 不是所有可执行代码都应该是合法的跳转目标 。
函数入口是合理的，但一段中间指令流的中间位置呢？一个数据区域呢？显然不是。

BTI 正是从这个基本认知出发，引入了一个极简却强大的规则：

✅ 只有标记为“欢迎光临”的地方，才允许你跳进来。
❌ 否则，直接触发异常，终止执行。

BTI 是怎么工作的？🧠

它其实是个“门卫”

你可以把 BTI 想象成 CPU 内部的一个微型安检员。每当发生一次 间接分支 （比如 br , blr , ret ），这位安检员就会立刻冲上去查看目标地址的第一道“门牌”。

这块门牌就是一条特殊的提示指令（hint instruction），形如：

hint #34    // 实际上就是 BTI c

如果门牌写着“允许进入”，那就放行；如果没有，或者写错了，立刻拉响警报——触发同步异常（通常是 SError 或 Undefined Instruction Exception），交由更高特权级（如 EL3）处理。

⚠️ 注意： 直接分支不受影响 。像 b label 或 bl func 这种编译期确定的目标，BTI 根本不管。它只盯着那些“不确定去哪儿”的跳转。

这就像是机场的VIP通道：你知道你要去哪，走正常流程就行；但如果你试图偷偷混进另一个航班的登机口？对不起，必须查证件。

三种“通行证”类型 🪪

ARM 设计了三种不同的 BTI 提示指令，对应不同场景下的合法入口点：

指令	编码	使用场景
`BTI c`	`0xd503233f`	函数入口，常规调用目标
`BTI j`	`0xd503231f`	跳转表目标，如 switch-case 分支、虚函数分发表
`BTI jc`	`0xd503235f`	同时支持 c 和 j 类型

它们本质上都是 NOP 指令的变体，不影响原有逻辑，但会被 CPU 解码器特殊识别。

举个例子：

.global secure_boot_entry
secure_boot_entry:
    hint #34              // ← BTI c：这里是可信入口！
    stp x29, x30, [sp, -16]!
    mov x29, sp
    // 执行初始化操作
    bl verify_next_stage
    ...
    ret

现在，任何试图通过 blr x0 跳转到这段代码的人都必须确保 x0 指向的是这条 hint 指令的位置。否则，CPU 直接说“不”。

内存页级别的开关 🔧

BTI 并非全局强制开启。相反，它支持按内存区域精细控制是否启用保护。

这是通过页表项中的属性字段实现的。具体来说：

在页表描述符中设置 MT=4 （Memory Tagging Effect），并与 MAIR_ELx 寄存器配合，标识某页为“需 BTI 检查”。
配合 TCO（Top Byte Compare for Instructions） 和 HDTR_EL2.TBIT 等寄存器，进一步细化策略。

这意味着你可以做到：

✅ 对 UEFI 固件、TF-A、Hypervisor 等关键模块启用 BTI
❌ 对遗留驱动或第三方库暂时关闭，避免兼容性问题

渐进式迁移成为可能。

在 Linux 中，可以通过 VMA 标志位来控制映射行为；而在裸机固件中，则需要手动配置页表并启用 SCR_EL3.BIT 位来激活全局 BTI 功能。

为什么说 BTI 是“硬件级防御”的典范？⚡

让我们对比一下传统软件 CFI 和 BTI 的实际表现：

维度	软件 CFI（如 LLVM-CFI）	ARM64 BTI
防护层级	用户态/内核态软件插桩	硬件解码阶段拦截
性能开销	明显（哈希计算、间接跳转验证）	几乎为零（仅多一条 hint）
绕过难度	中等（可通过数据泄露+类型混淆）	极高（需物理访问或侧信道攻击）
部署复杂度	需重构工具链、重编译全部代码	GCC ≥10 / LLVM ≥12 即可
覆盖范围	仅限虚函数、函数指针等有限场景	所有间接分支（br/blr/ret）
实际可用性	大型系统难全覆盖	固件级推荐标配

看到区别了吗？

软件 CFI 像是在每个房间门口贴一张“禁止入内”告示，然后派保安挨个检查访客身份证。工作量大，还容易漏检。

而 BTI 则是直接在建筑设计之初就规定：“没有门禁卡，连楼都不让你进。”
从根源上杜绝非法访问的可能性。

而且它几乎不花额外成本：那条 hint 指令本来就是空操作，插入后对性能毫无影响。真正的检查由硬件完成，在指令解码阶段瞬间判定，不会造成流水线停顿。

怎么用？实战指南 🛠️

方法一：手动汇编插入（适合关键入口）

对于极少数必须精确控制的启动代码，可以直接写汇编：

.type trusted_entry, %function
trusted_entry:
    hint #34                  // BTI c
    mov x29, sp
    sub sp, sp, #16
    // do something
    add sp, x29, #16
    ret

GCC 支持 .type 指令帮助链接器识别函数边界，这对后续工具分析也很重要。

方法二：编译器自动插入（强烈推荐）✨

从 GCC 10 和 LLVM 12 开始，已经原生支持 -mbranch-protection 参数来自动生成 BTI 指令。

常用选项如下：

# 启用标准分支保护（含 BTI）
gcc -march=armv8.5-a+bti \
    -mbranch-protection=standard \
    -c my_module.c -o my_module.o

支持的模式包括：

none : 不启用
bti : 仅插入 BTI 提示
pac-ret : 加上 PAC 保护返回地址
standard : BTI + PAC for return（最佳实践）

📌 小贴士：使用 objdump -d 查看生成的代码，确认是否有 hint #34 出现。

方法三：用属性标注关键函数（C语言友好）

GCC 提供了扩展属性，方便你在 C 层面指定哪些函数需要 BTI 保护：

__attribute__((bti_c))
void secure_service_call_handler(void) {
    if (!validate_context()) {
        panic("Unauthorized access");
    }
    handle_smc();
}

编译器会在该函数开头自动生成 BTI c 指令。

类似的还有：
- __attribute__((bti_j)) → 插入 BTI j
- __attribute__((bti_jc)) → 插入 BTI jc

这样既保持了代码可读性，又能精准施加安全策略。

方法四：链接脚本控制节区粒度

你还可以通过链接脚本，将特定代码段集中放入受保护区域：

SECTIONS {
    .text.secure : {
        *(.text.bti)
        *(.text.startup)
    } > FLASH AT > FLASH

    . = ALIGN(4);
}

然后配合编译选项，确保这些节区所在的内存页设置了正确的 PTE 属性（如 BTI-enabled）。

这对于构建“高安全性核心区”非常有用——比如只对 Boot ROM 和 TF-A 启用 BTI，其余模块逐步迁移。

典型应用场景：从 Boot ROM 到 EL3 固件 🔁

考虑这样一个典型的 ARM64 嵌入式系统启动流程：

[Power-on Reset]
        ↓
[Boot ROM (ROM Code)] → 已烧录 BTI 指令，CPU 启动即启用 BTI
        ↓
[TF-A / BL2] → 验证签名 → 映射内存 → 设置页表（启用 BTI 属性）
        ↓
[BL31 Entry Point] → blr x0 → 检查目标是否包含 BTI c
        ↓
[Hypervisor or Kernel] → 继承保护策略，持续防御

在这个链条中，任何一个环节缺失 BTI，都会导致前功尽弃。

比如，假设 Boot ROM 没有启用 BTI，攻击者就可以在早期阶段注入恶意跳转，绕过后续所有保护。

反过来，如果 TF-A 虽然启用了 BTI，但加载的 BL31 镜像未经过签名校验，且未重定位含 BTI 的代码段，那么仍然可能被替换成无 BTI 标记的恶意版本，从而无法通过硬件检查。

所以， BTI 的有效性高度依赖于整个信任链的完整性 。它不是“装了就安全”的开关，而是纵深防御体系中的一环。

它到底防住了什么？🛡️

场景一：经典 ROP 攻击失效 💥

传统 ROP 攻击依赖于寻找大量以 ret 结尾的 gadget，并将其串成链式调用。

但在 BTI 启用后，每一个 gadget 的起始地址都必须是有效的 BTI 提示指令位置。

问题来了： 谁会在一堆中间逻辑里插一条 BTI c ？

当然不会。开发者只会在函数入口、异常处理入口等明确的控制流转入点添加 BTI。

结果就是：绝大多数现有 gadget 都不再可用。即使攻击者能找到某个 ret 指令，也无法保证其前方有合法的 hint 指令。

🧩 举个例子：
假设有个 gadget 是这样的：

asm add x0, x1, x2 ret

如果前面没有 BTI c ，那么任何跳转到这里的行为都会被 CPU 拦截。

这直接让 ROP 的成功率暴跌几个数量级。

场景二：固件升级过程中的被动防御 🔄

OTA 升级是物联网设备的常态，但也带来了巨大风险：中间人攻击、镜像篡改、供应链污染……

BTI 可以在这里扮演“最后一道防线”的角色。

设想一个安全更新流程：

下载新固件镜像
验证数字签名
解压并重定位代码
跳转执行

其中第 2 步是主动防御，防止已知恶意代码进入系统。

而 BTI 则提供了第 5 步的“被动防御”能力：

即使某个恶意模块侥幸通过了签名验证（比如私钥泄露），只要它内部没有正确的 BTI 提示指令，就无法被间接调用！

换句话说， BTI 把“能否执行”和“是否有权限跳转”绑定在一起 。

这就像给每扇门上了双重锁：一把钥匙开得了门，不代表你能自由进出所有房间——你还得有门禁卡。

实践中的坑与最佳做法 ⚠️

别以为开了个编译选项就万事大吉。我在实际项目中踩过不少雷，总结出以下几点血泪经验：

❌ 错误1：在 BTI 区域存放数据

这是最致命的错误之一。

想象你在 .text 段里定义了一个常量表：

const uint32_t jump_table[] = { 0x80001000, 0x80002000, ... };

如果这个数组恰好落在启用了 BTI 的内存页中，而又有代码尝试把它当作函数指针数组来调用：

((void(*)())jump_table[i])();  // blr x?

那么 CPU 会去检查目标地址处是否有 BTI 指令。但它看到的是一堆数据 0x80001000 ，显然不是合法指令，更别说 hint 了。

结果：触发异常，系统崩溃。

✅ 正确做法 ：
将跳转表、常量池、状态机表等数据结构移到 .rodata 或专用节区，并确保其所在页未启用 BTI。

❌ 错误2：滥用 `BTI jc`

有些人图省事，干脆全用 BTI jc ，觉得“宽一点总比出错好”。

但你想过吗？ jc 表示“无论你是函数调用还是跳转表，我都放行”。这就等于降低了安全门槛。

攻击者可能会构造一个看似正常的 switch-case 分支，实则指向恶意代码。

✅ 建议：
- 函数入口用 BTI c
- 明确的跳转表目标用 BTI j
- 尽量避免使用 BTI jc ，除非确实存在混合调用场景

越严格，越安全。

✅ 必做事项清单 ✅

项目	建议
启用时机	在 EL3 初始化完成后立即设置 SCR_EL3.BIT，尽早建立防护
内存属性	使用 MAIR_ELx 配置专用内存类型，清晰区分 BTI/non-BTI 页面
遗留代码	对老模块暂时关闭 BTI，制定迁移计划逐步覆盖
调试模式	开发阶段可通过 HCR_EL2.TBID 忽略 BTI 异常，便于调试
异常处理	实现 SError Handler，记录非法跳转事件用于审计追踪
工具链	至少使用 GCC 10.2+ 或 LLVM 12+，并定期验证输出