ARM64异常返回ERET指令执行流程

原创于 2025-12-07 10:43:32 发布 · 551 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#ARM64 # ERET # 异常返回

AI助手已提取文章相关产品：

ARM64异常返回ERET指令执行流程：从硬件机制到系统实践

你有没有遇到过这样的场景？一个看似简单的中断处理函数，却在最后 eret 那一刻莫名其妙地崩溃了——PC跳到了不可预测的地址，或者处理器卡死在某个特权级无法退出。调试器显示一切正常，寄存器也都对得上……但就是回不去。

这背后，往往藏着对 ERET 指令 理解不够深入的问题。

在ARM64的世界里，异常返回不是一句 ret 那么简单。它是一场精密的“状态交响曲”，由硬件主导、软件配合，通过一条特殊的指令—— ERET（Exception Return） ，完成从高特权级向低特权级的安全跃迁。而这场跃迁的核心，正是我们今天要深挖的主题。

异常世界的大门与归途

想象一下，你的程序正在用户空间愉快地运行着，突然来了个时钟中断。CPU必须暂停当前任务，切换身份去处理这个紧急事件。但它知道，事情办完后还得回来继续干活。于是，在进门之前，它悄悄记下了两件事：

我刚才执行到哪条指令了？ → 存进 ELR_ELx
我当时是什么状态？中断开着吗？处于什么模式？ → 存进 SPSR_ELx

这两个动作是自动完成的，不需要软件干预。这就是 异常进入 的过程。

而当你处理完中断，准备回家时，就需要一个“返程票”——这张票就是 ERET 指令 。

它不像普通的跳转指令那样只改PC，而是做了一整套“复原手术”：
- 把PC设回原来的地方（来自ELR）
- 把处理器的状态恢复成当初的样子（来自SPSR）
- 自动切换回原来的特权级和栈指针
- 甚至重新启用之前被屏蔽的中断

整个过程原子执行，一气呵成，不能被打断。这种设计既高效又安全，避免了传统架构中因栈破坏导致返回失败的风险。

🧩 所以说，ERET 不是一条普通的跳转指令，它是 AArch64 架构中唯一合法的异常退出通道 。你可以把它看作是“受保护的 return from exception”。

ERET 到底做了什么？

让我们拆开来看这条神秘指令的真实行为。

当处理器执行 eret 时，硬件会按以下顺序操作：

第一步：确定目标执行级别（Target EL）

首先，硬件会查看当前正在使用的 SPSR 寄存器中的 M[3:0] 字段 。这个字段编码了目标异常级别和运行模式。例如：

M[3:0]	含义
`0b0000`	Reserved
`0b0100`	EL0 using SP0
`0b0101`	EL1 using current SP
`0b1111`	EL3 using current SP

💡 这意味着： 你能否成功返回，完全取决于 SPSR 中的 M 位是否合法且可访问 。

如果你在 EL3 修改了 SPSR.M 为 0b0100 ，那么即使你现在在最高权限，ERET 也会毫不犹豫地带你回到 EL0 —— 只要系统允许这种降级。

这就引出了一个重要特性： ERET 支持跨层级跳转 。比如可以从 EL2 直接返回到 EL0，只要 SPSR 设置得当。

第二步：恢复程序计数器（PC）

接下来，硬件将 ELR_ELx 的值加载到 PC 中。

注意这里的 x 是当前异常级别。也就是说：
- 如果你在 EL1 执行 eret，则使用 ELR_EL1
- 在 EL2 使用 ELR_EL2
- 以此类推

这个 ELR 寄存器里的地址，通常是在异常发生时由硬件自动保存的断点地址。但在某些情况下，我们可以手动修改它，实现一些高级功能。

举个例子：

mrs x0, ELR_EL1        // 读取原始返回地址
add x0, x0, #4         // 跳过下一条指令
msr ELR_EL1, x0        // 写回去
eret                   // 返回新位置

这段代码的效果相当于“跳过一条指令”。这在调试器实现单步执行或模拟未对齐访存时非常有用。

不过⚠️警告：随意篡改 ELR 是危险行为！如果指向非法内存区域，轻则触发新的异常，重则直接宕机。

第三步：恢复处理器状态（PSTATE）

然后，硬件从 SPSR_ELx 中取出所有状态标志，并写入当前 PSTATE 寄存器。

这些包括但不限于：

条件标志位（N/Z/C/V） ：影响后续条件分支判断
DAIF 位 ：
D: Debug exceptions
A: SError interrupt
I: IRQ interrupts
F: FIQ interrupts

它们决定了返回后哪些中断是开启的
SS（Single Step） ：是否启用单步调试
IL（Illegal Execution State） ：用于检测非法执行状态转换

最关键的是， PSTATE.M 会被设置为 SPSR.M 的值 ，从而完成特权级切换。

这意味着：一旦 ERET 开始执行，你就不再属于当前异常级别了。控制权瞬间移交给了目标 EL 的上下文。

第四步：切换栈指针与向量表基址

随着特权级的变化，硬件还会自动选择对应的栈指针（SP）和异常向量表（VBAR_ELx）。

比如：
- 当 M=0b0100（EL0）时，使用 SP0
- 当 M=0b0101（EL1）时，使用 SP 或 SP_EL1（取决于 SCTLR_EL1.SP0）

同时，异常向量也切换为对应级别的 VBAR。这样下次再发生异常时，就能正确跳转。

这一切都是透明完成的，无需软件参与。

关键寄存器详解：SPSR 与 ELR

要想让 ERET 正确工作，我们必须搞清楚它的两个“燃料箱”——SPSR 和 ELR。

SPSR_ELx：状态快照保险柜

SPSR 就像一张照片，拍下了你进入异常前的最后一刻状态。

但它并不是一直有效的。只有在异常刚发生后的短时间内，这张照片才是完整的。如果你不及时保存它，后续的函数调用可能会覆盖掉关键信息。

特别是在嵌套异常中，问题更明显：

假设你在 EL1 处理中断，还没来得及保存 SPSR，又来了个更高优先级的异常（如 FIQ），这时硬件会再次把当前 PSTATE 写入 SPSR_EL1 —— 原来的那张“照片”就被覆盖了！

所以最佳实践是：

// 进入异常后立即保存 SPSR 和 ELR
mrs x0, SPSR_EL1
mrs x1, ELR_EL1
stp x0, x1, [sp, #-16]!

否则，等到你想返回时，可能已经找不到回家的路了。

此外，SPSR 中的 M 字段决定了你能返回到哪里 。如果你想从 EL1 返回到 EL0，必须确保 SPSR.M = 0b0100；如果是返回 EL1，则设为 0b0101。

🔥 特别提醒：不要试图返回到比当前更低权限的 EL 而没有正确配置 TTBR 和页表映射，否则会导致 page fault，甚至无限递归异常！

ELR_ELx：断点记忆体

ELR 存储的是异常发生时的返回地址。

对于同步异常（如 SVC、Undefined Instruction），ELR 指向的是出错指令本身；
而对于异步异常（IRQ/FIQ），它通常指向下一条将要执行的指令。

但也有一些例外情况需要修正：

Prefetch Abort ：如果是因为取指失败导致的异常，ELR 可能指向错误地址，需结合 FAR_ELx 分析实际故障点
Instruction Alignment Fault ：某些未对齐指令可能需要调整 ELR + 2 或 + 4
Debug Exceptions ：单步陷阱可能需要根据 SSD 控制位决定是否前进

因此，在某些异常处理路径中，我们需要先分析 FAR（Fault Address Register）、ESR（Exception Syndrome Register）等辅助寄存器，再决定是否修改 ELR。

例如，在处理数据中止异常时：

if (is_write_fault()) {
    // 已经完成了写操作，应返回下一条指令
    elr += 4;
} else {
    // 读操作失败，仍应回到原指令重试
    // 不修改 ELR
}

这类逻辑常见于缺页异常处理或 KVM 中的 MMIO 模拟。

实战案例：Linux 内核中的系统调用返回

理论说得再多，不如看一段真实世界的代码。

以下是 Linux 内核中典型的系统调用返回路径（简化版）：

// arch/arm64/kernel/entry.S

el0_svc:
    stp     x29, x30, [sp, #-16]!       // 保存帧指针和链接寄存器
    mov     x29, sp
    allocate_stack 8 * 16                // 分配额外栈空间

    enable_irq_nosave                    // 允许嵌套中断（可选）

    mrs     x1, SPSR_EL1                 // 保存现场
    mrs     x2, ELR_EL1
    stp     x1, x2, [sp, #8 * 16]

    // 保存通用寄存器 x0-x18
    stp     x0, x1, [sp, #0 * 16]
    stp     x2, x3, [sp, #1 * 16]
    ...
    stp     x16, x17, [sp, #8 * 16]

    mov     x0, sp                       // 参数传给 C 函数
    bl      do_syscall                   // 调用 C 层处理

    // 恢复寄存器
    ldp     x0, x1, [sp, #0 * 16]
    ...
    ldp     x16, x17, [sp, #8 * 16]

    ldp     x1, x2, [sp, #8 * 16]
    msr     SPSR_EL1, x1                 // 恢复 SPSR
    msr     ELR_EL1, x2                  // 恢复 ELR

    ldp     x29, x30, [sp], #16          // 恢复帧指针
    add     sp, sp, #8 * 16              // 释放栈空间

    eret                                 // ✨ 最终返回用户空间

看到了吗？整个流程就像一场精心编排的舞蹈：

保存全部上下文
调用 C 函数处理业务逻辑
恢复所有寄存器
最后才执行 eret

而且你会发现： 没有任何地方直接修改 PC 或手动开关中断 。一切都交给 ERET 来完成。

这也是为什么内核开发者常说：“只要 SPSR 和 ELR 对了，eret 一定能带你回家。”

常见陷阱与避坑指南

尽管 ERET 设计得很稳健，但在实际开发中仍然容易踩雷。

❌ 陷阱一：忘记保存 SPSR/ELR，导致嵌套异常崩溃

irq_handler:
    bl some_function    // 调用外部函数
    eret                // ❌ 危险！SPSR 可能已被破坏

问题出在哪？ some_function 可能使用了 AAPCS64 规定的 callee-saved 寄存器，其中包括 x18~x30，而某些平台可能用 x18 存储临时状态。更重要的是， 函数调用可能改变 PSTATE （比如开了中断），导致 SPSR 不再反映原始状态。

✅ 正确做法是：进入异常后第一时间备份 SPSR 和 ELR 到栈上。

❌ 陷阱二：在 eret 前意外启用中断

有些开发者为了提高响应速度，会在恢复寄存器之后、执行 eret 之前主动开启 IRQ：

msr DAIFClr, #2         // 开启 IRQ ← 危险！
ldp x29, x30, [sp], #16
eret

这样做看似没问题，但实际上存在竞态风险： 在 msr 和 eret 之间可能发生新的中断 ，导致当前异常处理上下文被覆盖。

✅ 推荐做法是：保持中断关闭，直到 eret 执行完毕。因为 SPSR 中已经记录了原始的 DAIF 状态，ERET 会自动恢复它。

这样既能保证原子性，又能做到精确控制。

❌ 陷阱三：误改 SPSR.M 字段，跳入非法模式

mov x0, #0b1111         // 错误地设为目标 EL3
bfi x0, x0, #0, #4      // 插入 M 字段
msr SPSR_EL1, x0
eret                    // ❌ 试图从 EL1 返回 EL3？不可能！

这种情况虽然语法合法，但硬件会检测权限违规并触发异常。毕竟你不能随便从低级跳到高级。

✅ 若需提升特权级，应使用 eret 返回后立即触发新的异常（如 HVC），而不是强行修改返回目标。

❌ 陷阱四：忽略 ELR 对齐要求

ARM64 要求指令地址必须 2 字节对齐。若你手动修改 ELR 指向奇地址：

add x0, x0, #1
msr ELR_EL1, x0
eret   // ⚠️ 可能触发 Alignment Fault

结果可能是立即引发新的异常，形成死循环。

✅ 始终确保 ELR 是合法可执行地址，并满足对齐约束。

高阶玩法：利用 ERET 实现高级控制流

掌握了基础之后，我们可以玩点更有意思的。

🎯 场景一：系统调用拦截与重定向

假设你想监控所有 open() 系统调用，可以这样做：

在 do_syscall 中检查 syscall number
若为 __NR_open ，打印路径并替换参数
修改 regs->regs[0] （即 x0）为伪造的 fd
跳过真正调用，直接返回

此时不需要改动 ELR，只需修改返回值即可。

但如果想完全跳过某个系统调用并继续执行下一条指令呢？

那就得动 ELR 了：

if (should_skip_syscall(regs)) {
    regs->pc += 4;  // 指向下一条指令
}

等同于汇编层的：

mrs x0, ELR_EL1
add x0, x0, #4
msr ELR_EL1, x0

这样用户程序根本不知道自己发起了系统调用，就像什么都没发生一样。

🎯 场景二：用户态指令模拟（Unaligned Access Handling）

ARM64 支持 unaligned access trap。当用户程序访问未对齐的数据时，会产生 Data Abort。

此时内核可以：

解码 ESR_EL1 获取访问类型（读/写）、大小
从 FAR_EL1 读取目标地址
手动模拟该次访问（逐字节读取组合）
设置返回值到对应寄存器
不增加 ELR ，让程序重试原指令

或者更进一步：修改 ELR += 4，假装指令已成功执行。

后者适用于只读场景，避免重复触发异常。

🎯 场景三：虚拟化中的 VM Exit 返回

在 KVM 中，当客户机触发 exit（如访问 MMIO 区域），Hypervisor 会捕获该事件并模拟。

处理完成后，也需要返回客户机上下文。

这时候也用 ERET！

只不过这次是从 EL2 返回到 EL1’（Non-secure EL1）：

// 在 EL2 中
msr ELR_EL2, guest_pc       // 设置客户机恢复点
msr SPSR_EL2, guest_pstate  // 恢复客户机状态
eret                        // 返回客户机

整个过程与普通异常返回几乎一致，体现了 ARM64 虚拟化设计的统一性。

性能与安全性权衡

相比 x86 的 IRET 指令，ERET 的设计更加现代化。

维度	x86 IRET	ARM64 ERET
实现方式	栈弹出 + 远跳转	单条指令硬件完成
安全性	易受栈溢出污染	使用专用寄存器隔离
状态管理	状态混在栈中	明确分离 SPSR/ELR
权限检查	依赖描述符表查询	硬件直接验证 M 字段
调试支持	单步易失控	ERET 自动禁止单步陷阱