AARCH64异常向量表布局与处理机制

原创于 2025-12-07 14:45:31 发布 · 936 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#AArch64 # 异常向量表 # VBAR_EL1

AI助手已提取文章相关产品：

AArch64异常向量表：从硬件跳转到系统调用的底层真相

你有没有想过，当你在用户程序里执行一条 svc #0x10 指令时，CPU是怎么“瞬间”切换到内核态并开始处理系统调用的？又或者，当你的设备收到一个网卡中断，为何能精准地跳进对应的中断服务例程，而不是随便跑到某个函数里去？

这一切的背后，藏着一块神秘而关键的内存区域—— AArch64异常向量表（Exception Vector Table） 。它不像页表那样被频繁提及，也不像调度器那样充满算法美感，但它却是整个系统稳定运行的“第一道门”。一旦这扇门没设好，轻则宕机重启，重则安全漏洞频发。

今天我们就来揭开这块2KB内存的面纱，看看它是如何支撑起现代ARM系统的异常响应机制的。🛠️

异常不是“错误”，而是系统的呼吸节奏

很多人初学时会误解“异常”这个词，以为它专指崩溃、中止或非法操作。但实际上，在ARM架构中，“异常”是一个广义概念，涵盖了所有让处理器暂时离开当前执行流的事件：

用户发起系统调用（SVC）
外部设备触发中断（IRQ/FIQ）
内存访问失败（Data Abort）
调试断点（Breakpoint）
系统错误（SError，比如ECC校验失败）

这些事件本质上是 控制权转移的合法途径 。就像城市交通中的立交桥，它们允许不同优先级的“车辆”（代码流）安全高效地交汇与分流。

而AArch64的设计哲学非常清晰： 用固定的硬件逻辑实现快速入口选择，再由软件完成精细化分发 。这就引出了我们今天的主角——那张总大小仅为2KB的向量表。

2KB的向量表，16个槽位，每条路都通向不同的世界

想象一下，这块向量表就像是一个四层立体停车场，每一层对应一种异常来源模式，每个车位就是一个128字节的入口空间。总共16个车位，排布得整整齐齐。

Offset     Entry Type
------     -------------------------------
0x000      Current EL with SP0
0x080      Current EL with SPx
0x100      Lower EL using 64-bit state
0x180      Lower EL using 32-bit state (AArch32)

每个类别下又细分为四个子项：
- 同步异常（Sync）
- IRQ
- FIQ
- SError

也就是说，每一个异常类型都有专属入口地址，无需你在入口处写一堆 if-else 判断“我现在是谁”。这种设计带来的最大好处就是—— 确定性 和 低延迟 。

比如，一个运行在EL0的应用程序执行了 svc #0 ，想要进入内核做系统调用。这时CPU知道：
- 来源是更低特权级（Lower EL）
- 目标是64位状态（AArch64）
- 类型是同步异常

于是直接计算偏移： VBAR_EL1 + 0x100 + 0x00 = VBAR_EL1 + 0x100 ，然后一跃而入。全程不需要任何软件参与判断，纯硬件搞定。

💡 小知识：为什么是0x100？因为这是“Lower EL, 64-bit”类别的起始偏移；0x00则是该类别下的第一个子项——同步异常。

VBAR_ELx：通往向量表的钥匙

那么，CPU怎么知道这个向量表放在哪呢？答案藏在一组特殊的寄存器里： VBAR_EL1 、 VBAR_EL2 、 VBAR_EL3 。

这三个寄存器分别定义了当异常跳转到EL1、EL2、EL3时应该使用的向量表基地址。你可以把它们理解为“门牌号指示牌”。

例如，在Linux内核启动初期，你会看到类似这样的代码：

__asm__ volatile("msr vbar_el1, %0" : : "r"(vector_table_base));

这一行就把当前CPU的异常入口指向了内核自己准备好的向量表。从此以后，所有来自用户态的系统调用、缺页异常、中断请求，都会先到这里报到。

但注意！🚨
VBAR_ELx 的值必须满足 2KB对齐 ，也就是低13位全为0。如果你不小心把它指向了一个未对齐的地址，恭喜你，第一次异常就会引发“向量表对齐异常”——而且由于向量表本身就不对齐，连这个异常都无法正确处理，结果通常是死机。

所以别怪文档反复强调这一点。实践中建议使用链接脚本强制对齐：

.vectors ALIGN(2048) : {
    KEEP(*(.vectors))
}

这样链接器会自动帮你把向量表段放到正确的边界上。

向量表结构实战：一张图胜过千言万语

让我们来看一段真实的汇编实现：

.align 11                    // 2^11 = 2048-byte alignment
vector_table:
    // == [0x000] Current EL with SP0 ==
    .space 128                // 不用于常规内核（SP0仅用于特定场景）

    // == [0x080] Current EL with SPx ==
    b   handle_sync_current   // 同步异常
    b   handle_irq_current    // IRQ
    b   handle_fiq_current    // FIQ
    b   handle_serror_current // SError

    // == [0x100] Lower EL, 64-bit ==
    b   handle_svc_entry      // SVC等系统调用
    b   handle_irq_lower      // 来自EL0的中断
    b   handle_fiq_lower
    b   handle_serror_lower

    // == [0x180] Lower EL, 32-bit ==
    .space 512                // 纯AArch64系统通常不用

这段代码做了几件事：
- 使用 .align 11 确保整体对齐
- 每个入口以 b （branch）指令跳转到具体处理函数
- 保留了完整的16槽结构，即使某些槽不使用也填充 .space

你会发现，这里并没有直接在向量表里写复杂的C函数调用，而是只放一条跳转指令。这是有讲究的。

为什么不能直接写长函数？

因为每个槽只有128字节！平均下来最多容纳32条A64指令。虽然够做一些简单判断，但不足以完成完整的上下文保存和栈切换。

更重要的是： 异常刚发生时，你还没有合适的栈可用 ！

想想看，刚从中断进来，sp指针还是原来的，可能指向用户栈，也可能不可靠。这时候贸然调用C函数，参数压栈都可能出错。因此标准做法是：

在向量入口用汇编跳转到一个“前导处理函数”
这个函数负责切换到内核栈、保存通用寄存器
然后再调用C语言写的高层异常分发器

这种“汇编+C”的协作模式，既保证了启动速度，又提升了可维护性。

ESR_ELx：异常的身份证

当你终于进入C函数后，第一件事往往就是读取 ESR_ELx —— Exception Syndrome Register。这玩意儿堪称异常的“身份证”，告诉你：“我是谁，我从哪里来，我干了什么”。

它的结构如下：

Bits [31:26]	EC (Exception Class)
Bits [25]	IL (Instruction Length)
Bits [24:0]	ISS (Instruction Specific Syndrome)

其中最关键是 EC字段 ，共6位，决定了异常的大类。常见值包括：

EC 值	含义
0x00	Instruction Abort (current EL)
0x20	Instruction Abort (lower EL)
0x21	PC alignment fault
0x24	Data Abort (lower EL)
0x25	Stack Alignment Fault
0x3c	BRK 指令（调试断点）
0x15	SVC/SYSCALL from AArch64

举个例子，你想识别系统调用：

uint64_t esr = read_sysreg(esr_el1);
uint32_t ec = (esr >> 26) & 0x3F;

if (ec == 0x15) {
    uint16_t imm = esr & 0xFFFF;  // 提取SVC立即数
    do_syscall(imm);
}

这里的 imm 就是你在用户态写的 svc #8 中的那个 8 ，可以作为系统调用号传递给内核。

而对于内存异常（如缺页），除了EC之外还要看 FAR_ELx （Fault Address Register），它记录了出问题的虚拟地址。结合这两个寄存器，你就能精确判断到底是访问了空指针，还是触发了写时复制（Copy-on-Write）。

返回不是 `ret` ，而是 `eret`

处理完异常之后，能不能直接 return 回去？不行！🙅‍♂️

因为在异常发生时，CPU已经改变了特权级和执行环境。你需要通过专用指令 eret （Exception Return）来恢复现场。

eret 会做两件事：
1. 从 ELR_ELx 加载返回地址到PC
2. 从 SPSR_ELx 恢复PSTATE（状态寄存器）

所以在退出前，你通常要准备好这两个寄存器：

mov elr_el1, x30        // 可选：修改返回地址
mov spsr_el1, x0        // 恢复之前保存的状态
eret

如果一切正常，CPU就会乖乖回到用户态继续执行。但如果有人篡改了 SPSR_ELx ，试图返回到EL3或者禁用中断标志，硬件会在 eret 时检测并阻止——这就是ARM的安全防线之一。

实战案例：一次系统调用的完整旅程

让我们跟着一次 write(1, "hello", 5) 调用走一遍全流程：

应用程序执行 svc #8
CPU检测到同步异常，决定跳转至EL1
查看 VBAR_EL1 得到向量表基址
计算偏移： VBAR_EL1 + 0x100 + 0x00 = sync_lower_64bit
跳转到该地址，执行 b handle_svc_entry
进入汇编层，切换到内核栈，保存x0-x18等寄存器
调用C函数 handle_sync_exception()
读取 ESR_EL1 → EC=0x15 → 是SVC
解析ISS → imm=8 → 对应sys_write
调用 do_syscall(8, args...)
完成写操作，设置返回值
准备好 SPSR_EL1 和 ELR_EL1
执行 eret
CPU恢复用户态上下文，从svc下一条指令继续执行

整个过程耗时极短，且大部分由硬件加速完成。这也是为什么现代操作系统能在微秒级别响应系统调用。

多级世界的守护者：EL2与EL3的向量表

你以为只有内核才有向量表？错。在虚拟化和安全场景中， 每一级都有自己的守门人 。

Hypervisor的世界：EL2截获一切

假设你在跑KVM，Guest OS正在执行中断处理。但物理中断属于宿主机资源，不能直接交给虚拟机。

怎么办？利用 HCR_EL2.TGE 位。

当 HCR_EL2.TGE = 1 时，所有本该送往EL1的IRQ/FIQ都会被 截获到EL2 。Hypervisor可以先模拟一个虚拟中断，然后再注入回Guest。整个过程对Guest完全透明。

要做到这点，就必须在EL2配置自己的向量表：

__asm__ volatile("msr vbar_el2, %0" :: "r"(hyp_vector_base));

然后在这个向量表中处理 trap to hypervisor 类型的异常。

TrustZone的安全之门：EL3的SMC拦截

在手机芯片中，TrustZone将世界分为安全（Secure）与非安全（Non-Secure）。当你想从普通Android系统调用TEE服务时，需要执行 smc #0 。

这条指令会触发异常，目标为EL3。而EL3的向量表就成了唯一入口：

// 在VBAR_EL3指向的表中
b   handle_smc_call

Secure Monitor在这里验证调用合法性，检查参数是否越界，确认NS世界无权访问敏感数据，然后再跳入安全世界的服务函数。

一旦这里失守，整个可信执行环境就形同虚设。

性能优化的秘密武器：避免入口混用

你可能会想：“反正都是异常，能不能省点空间，让多个类型共用一个入口？”

技术上当然可以，比如在向量表里只留一个 generic_exception_entry ，然后在里面解码处理。但这样做代价很大：

增加分支预测失败概率
多重条件判断拖慢响应
难以进行性能分析和打桩测试

高性能系统（如Linux kernel）的做法恰恰相反： 尽可能分离入口 。

哪怕只是两个类似的异常，也分配独立槽位。这样不仅能提升缓存局部性，还能方便调试时设置断点。

比如说，Linux内核就把 IRQ 和 SVC 分开处理，甚至连不同类型的abort也尽量拆开。这不是浪费内存，而是用2KB换来的极致确定性。

设计陷阱与最佳实践

玩转向量表的路上布满坑，下面这几个是我踩过的真实雷区：

❌ 错误1：忘了对齐，导致首次异常即死机

char vec[2048];
// 如果这块内存没对齐……
write_sysreg(vbar_el1, (uint64_t)vec);  // 危险！

解决方案：永远用链接脚本或内存分配器确保对齐。

__attribute__((aligned(2048))) char vector_table[2048];

❌ 错误2：在向量表里调用C函数，破坏栈平衡

新手常犯的错误是在 .space 128 里直接写 bl my_c_handler 。但此时栈未切换，参数传递极不稳定。

✅ 正确做法：先跳转到汇编 stub，完成上下文保存后再进C。

❌ 错误3：忽略嵌套异常的风险

高优先级异常（如NMI）可以打断低级别的处理。如果你在处理IRQ时没关中断，又没换栈，很容易造成栈溢出。

✅ 建议：在关键异常入口临时关闭IRQ，并使用独立异常栈（per-CPU stack）。

✅ 最佳实践清单

项目	推荐做法
对齐	使用 `.align 11` 或链接脚本强制2KB对齐
入口设计	每类异常单独跳转，避免混用
上下文保存	在汇编层尽早保存x0-x18等易失寄存器
栈管理	使用独立的异常栈（exception stack）
调试支持	为BRK、HVC等调试指令预留专用入口
安全检查	在EL3处理SMC前验证SCR_EL3.NS位