Linux之禁止中断

最新推荐文章于 2025-09-02 22:11:17 发布

原创最新推荐文章于 2025-09-02 22:11:17 发布 · 783 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#linux #运维 #服务器 #禁止中断 #嵌入式

Linux入门与实战精通同时被 2 个专栏收录

221 篇文章

订阅专栏

嵌入式软件开发

147 篇文章

订阅专栏

一、形象比喻：把计算机比作「医院手术室」理解禁止中断

想象你正在参观一家医院的手术室，这里正在进行一场心脏搭桥手术：

手术台：相当于计算机的 CPU，正在执行最核心的「手术操作」（内核态关键代码）
麻醉师：相当于「中断控制器」，负责处理手术室里的紧急呼叫（外部设备中断请求）
护士站的呼叫铃：相当于「硬件中断信号」，比如监护仪报警、血库送血通知等
主刀医生：相当于「内核调度器」，决定什么时候处理哪个任务

场景还原：

当主刀医生正在进行缝合心脏血管的关键步骤（类似内核修改进程调度队列、更新文件系统元数据等操作），这时：

正常情况：麻醉师会监听呼叫铃，一旦有紧急情况（如患者血压骤降），会立即通知医生暂停当前操作去处理
禁止中断场景：医生提前告诉麻醉师：「接下来 5 分钟我要缝合血管，这段时间任何呼叫铃都不要响，除非手术室起火！」—— 这就是「禁止中断」

关键类比点：

为什么要禁止中断？
心脏缝合时如果被打断（比如突然有人喊「送血来了」），医生可能会手抖导致缝合错误，甚至危及患者生命。
同理，内核在修改「进程调度队列」「内存页表」等核心数据结构时，如果被外部中断打断，可能导致：
- 数据不一致（比如调度队列一半修改一半没修改）
- 系统崩溃（比如 CPU 同时执行两段冲突的代码）
- 竞态条件（多个中断同时修改同一个资源）
禁止中断的「粒度」
医生不会说「今天一整天都不要接电话」，而是说「接下来 5 分钟」。
内核禁止中断的时间也必须极短（通常在微秒级），否则会导致：
- 外部设备响应延迟（比如键盘按键长时间无反应）
- CPU 利用率下降（因为一直在等待中断恢复）
- 实时任务超时（比如工业控制中的传感器数据采集）
谁有权限禁止中断？
只有主刀医生（内核态代码）能要求麻醉师关闭呼叫铃，普通护士（用户态程序）没有这个权限。
这对应 Linux 中只有内核空间的代码（通过local_irq_disable()等函数）可以操作中断控制器，用户空间程序无法直接禁止中断。

二、专业深入：Linux 内核中的中断禁止机制

1. 中断系统的基本概念

1.1 什么是中断（Interrupt）？

中断是计算机系统中异步事件处理机制，用于通知 CPU「有外部事件需要处理」。例如：

硬件中断：键盘按键、磁盘读写完成、网络数据包到达
软件中断：定时器到期、系统调用返回、异常处理（如除零错误）

从 CPU 视角看，中断就像「突然被打断的电话」，CPU 会暂停当前任务，跳转到中断处理程序（Interrupt Handler），处理完成后再回到原来的任务继续执行。

1.2 中断的分类（Linux 视角）

分类方式	类型	特点
是否可屏蔽	可屏蔽中断（IRQ）	可以通过 CPU 指令临时禁止（如键盘、硬盘等设备中断）
	不可屏蔽中断（NMI）	无法禁止（如硬件错误、电源故障，必须立即处理）
处理位置	上半部（Top Half）	快速处理紧急事件（如读取硬件寄存器），禁止调度、禁止嵌套中断
	下半部（Bottom Half）	延迟处理非紧急任务（如数据拷贝到用户空间），可调度、可响应中断
是否共享	共享中断	多个设备共用一个 IRQ 号（如 PCI 总线上的多个设备）

2. 为什么需要禁止中断？

2.1 临界资源保护

当多个执行流（CPU 核心、中断处理程序、软中断、进程调度）同时访问共享的临界资源时，可能导致数据不一致。例如：

场景：内核正在更新某个进程的状态为「运行中」（修改task_struct结构体），此时另一个 CPU 核心的调度器可能选中该进程，导致状态混乱。
解决方案：在修改task_struct前禁止中断，确保修改过程不被其他 CPU 或中断打断。

2.2 原子操作需求

某些操作必须具有「原子性」（不可分割），例如：

自旋锁（Spinlock）的获取与释放
中断上下文与进程上下文的同步
硬件寄存器的连续读写（如 DMA 控制器的配置）

2.3 与其他同步机制的关系

禁止中断通常与其他同步原语配合使用：

自旋锁 + 禁止中断：在 SMP（多核）系统中，既要防止 CPU 间竞争，也要防止中断打断，例如：

spin_lock_irqsave(&lock, flags); // 关中断并获取自旋锁
// 临界区代码
spin_unlock_irqrestore(&lock, flags); // 恢复中断并释放自旋锁

信号量 vs 禁止中断：信号量会导致进程睡眠，而中断上下文（如硬中断处理函数）不能睡眠，因此只能用禁止中断实现同步。

3. 禁止中断的实现机制

3.1 硬件基础：中断控制器与 CPU 标志位

中断控制器（如 ARM GIC、x86 APIC）：负责管理外部中断的路由和屏蔽。
CPU 中断标志位：
- x86：eflags寄存器中的IF位（Interrupt Flag），cli指令清 0（禁止可屏蔽中断），sti指令置 1（允许中断）。
- ARM：CPSR寄存器中的I位（IRQ 屏蔽位）和F位（FIQ 屏蔽位）。

3.2 Linux 内核中的关键函数

函数名	功能描述	适用场景
`local_irq_disable()`	禁止本地 CPU 的可屏蔽中断，不影响其他 CPU	单 CPU 临界区或自旋锁保护
`local_irq_enable()`	启用本地 CPU 的可屏蔽中断	与`local_irq_disable`配对使用
`local_irq_save(flags)`	禁止中断并保存当前中断状态（flags），用于需要恢复原有状态的场景	通用临界区保护
`local_irq_restore(flags)`	恢复中断状态（flags）	与`local_irq_save`配对使用
`irq_disable()`	等同于`local_irq_disable()`（历史遗留接口，SMP 系统中仅禁止本地中断）	兼容性代码
`hardirq_disable()`	禁止硬中断（等价于`local_irq_disable`）	明确标识硬中断场景
`softirq_disable()`	禁止软中断（通过增加`softirq_count`计数器）	仅需屏蔽软中断的场景
`preempt_disable()`	禁止内核抢占（但允许中断）	防止进程调度打断临界区

注意：

禁止中断是「本地 CPU」的操作：在多核系统中，local_irq_disable只会影响当前 CPU 核心，其他核心的中断仍可正常响应。
中断嵌套规则：
- 硬中断处理函数中默认禁止同级中断，但允许更高优先级中断（如 FIQ 打断 IRQ）。
- 使用local_irq_disable会禁止所有可屏蔽中断，包括比当前中断优先级低的中断。

4. 禁止中断的应用场景

4.1 中断处理函数（硬中断上半部）

硬中断处理函数必须尽可能快速完成，因此：

通常会在进入时自动禁止同级中断（由硬件或内核机制实现）
若需要访问临界资源，需额外禁止中断或使用自旋锁。

示例：网络中断处理

static irqreturn_t net_rx_irq(int irq, void *dev_id) {
    struct net_device *dev = dev_id;
    local_irq_disable(); // 禁止中断，防止处理过程中被其他包打断
    while (have_packets(dev)) {
        struct sk_buff *skb = receive_skb(dev);
        if (skb) {
            __netif_receive_skb(skb); // 处理数据包
        }
    }
    local_irq_enable();
    return IRQ_HANDLED;
}

4.2 内核调度器临界区

调度器在选择下一个运行进程时，需要修改runqueue等核心数据结构，必须禁止中断和抢占：

static void __schedule(void) {
    unsigned long flags;
    // 禁止中断并保存状态
    local_irq_save(flags);
    // 禁止内核抢占
    preempt_disable();
    // 选择下一个进程
    struct task_struct *next = pick_next_task(rq);
    // 上下文切换
    context_switch(prev, next);
    // 恢复抢占和中断
    preempt_enable();
    local_irq_restore(flags);
}

4.3 驱动程序中的原子操作

例如，SPI 驱动在配置从设备时，需要连续写入多个寄存器，不允许被中断打断：

void spi_configure(struct spi_device *spi) {
    local_irq_disable();
    write_spi_reg(spi, SPI_REG_CTRL, 0x01); // 写控制寄存器
    write_spi_reg(spi, SPI_REG_DATA, 0xabcd); // 写数据寄存器
    local_irq_enable();
}

5. 禁止中断的风险与最佳实践

5.1 主要风险

中断延迟过大：禁止中断时间过长会导致实时设备（如声卡、工业传感器）数据丢失或响应超时。
- 案例：若在禁止中断期间，键盘中断被阻塞，用户按下的按键可能被操作系统忽略。
死锁：多个 CPU 核心同时禁止中断并竞争同一资源，可能导致永久阻塞。
- 场景：CPU0 禁止中断并持有自旋锁 A，CPU1 禁止中断并尝试获取自旋锁 A，同时等待 CPU0 释放，导致死锁。
优先级翻转：低优先级任务禁止中断后，高优先级任务无法被调度，违反实时性要求。

5.2 最佳实践

最小化禁止中断的范围

临界区代码尽可能简短，将非必要操作移到中断允许的区域。

// 反例：禁止中断后执行大量非必要操作
local_irq_disable();
log_message("Entering critical section"); // 耗时操作，应在中断允许时执行
modify_shared_resource();
local_irq_enable();

// 正例：仅在必要时禁止中断
log_message("Entering critical section"); // 先执行非临界操作
local_irq_disable();
modify_shared_resource();
local_irq_enable();

区分中断类型
- 若只需屏蔽软中断，使用local_bh_disable()/local_bh_enable()，而非完全禁止硬中断。
- 若只需防止内核抢占，使用preempt_disable()/preempt_enable()。
避免嵌套禁止中断
- 禁止中断的代码中不应再次调用local_irq_disable，除非明确需要屏蔽更高优先级中断。
- 嵌套调用会增加中断延迟，并可能导致中断状态混乱（需通过local_irq_save/restore配对管理标志位）。

SMP 系统中的同步

在多核场景下，禁止中断通常需要配合自旋锁，确保其他 CPU 核心无法访问临界资源：

spin_lock_irqsave(&lock, flags); // 关中断 + 获自旋锁（防止其他CPU和中断访问）
// 临界区
spin_unlock_irqrestore(&lock, flags); // 恢复中断 + 释放自旋锁

实时性考量
- 对于实时操作系统（如 PREEMPT_RT 补丁后的 Linux），应尽量避免禁止中断，转而使用优先级天花板协议等实时同步机制。

6. Linux 内核中的中断禁止与抢占

6.1 中断与内核抢占的关系

可抢占内核（CONFIG_PREEMPT=y）：
- 进程上下文代码（如普通内核函数）可以被高优先级进程抢占，但中断上下文（硬中断、软中断）不可被抢占。
- 禁止中断不会直接影响内核抢占，但preempt_disable()会显式禁止抢占。
中断上下文的特殊性：
- 硬中断处理函数运行在中断上下文，不可睡眠，且优先级高于进程上下文。
- 软中断处理函数运行在软中断上下文，可以被硬中断打断，但不可被进程调度打断。

6.2 关键状态标志

内核通过preempt_count变量跟踪当前 CPU 的状态：

preempt_count & PREEMPT_MASK：非零表示禁止内核抢占
preempt_count & IRQ_MASK：非零表示处于中断上下文（硬中断或软中断）

示例：判断当前是否在中断上下文

static inline int in_interrupt(void) {
    return (preempt_count() & (IRQ_MASK | SOFTIRQ_MASK)) != 0;
}

7. 案例分析：文件系统中的中断禁止

以 EXT4 文件系统为例，当写入文件元数据（如 inode 节点）时，必须保证修改的原子性，否则可能导致文件系统崩溃。

7.1 场景：更新 inode 的修改时间

static void ext4_update_inode_time(struct inode *inode) {
    struct ext4_inode *ei = EXT4_I(inode)->i_data;
    unsigned long flags;

    // 禁止中断并获取自旋锁（防止其他CPU或中断修改inode）
    spin_lock_irqsave(&EXT4_SB(inode->i_sb)->s_lock, flags);

    // 更新inode时间戳
    ei->i_atime = inode->i_atime;
    ei->i_mtime = inode->i_mtime;
    ei->i_ctime = inode->i_ctime;

    // 标记inode为脏，触发后续写入磁盘
    mark_inode_dirty(inode);

    // 释放锁并恢复中断
    spin_unlock_irqrestore(&EXT4_SB(inode->i_sb)->s_lock, flags);
}

7.2 关键点：

spin_lock_irqsave同时完成两件事：
1. 禁止当前 CPU 的中断（防止中断处理函数访问同一 inode）
2. 获取自旋锁（防止其他 CPU 核心访问文件系统超级块锁）
若不禁止中断，可能出现以下情况：
1. 中断处理函数（如磁盘 IO 完成中断）触发文件系统同步，尝试读取未完全更新的 inode 数据。
2. 多核 CPU 同时修改同一 inode，导致数据冲突。