C语言实现嵌入式OTA升级

原创于 2025-11-04 16:33:24 发布 · 769 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#C语言 #OTA升级 #嵌入式系统 #固件更新 #STM32 #Bootloader #Flash编程 #安全性 #回滚机制

AI助手已提取文章相关产品：

C语言实现OTA升级代码

在物联网设备大规模部署的今天，一个看似微小的功能——远程固件更新，往往决定了产品的成败。试想一下：成千上万台智能传感器分布在城市各处，一旦发现关键漏洞，难道要派人逐一拆机烧录？这不仅成本高昂，更可能错过最佳修复时机。正是在这种背景下，空中下载技术（Over-The-Air, OTA）从“加分项”变成了嵌入式系统的“生存必需品”。

而在这类资源极度受限的MCU设备上，C语言几乎是唯一能兼顾效率与控制力的选择。无论是ESP32、STM32还是nRF系列，我们都能看到基于C语言构建的轻量级OTA系统在默默工作。它们不需要操作系统的厚重支撑，也不依赖复杂的运行时环境，仅凭几KB内存和几十KB Flash空间，就能完成一次安全可靠的自我进化。

从零开始理解OTA的核心逻辑

要让一台设备学会“自己更新自己”，本质上是在解决三个层层递进的问题：

怎么把新代码写进去？
怎么确保写进去的是对的、没被篡改的？
写完之后如何安全地切换过去，失败了还能回来？

这三个问题的答案，构成了OTA系统的骨架。下面我们不按模块割裂讲解，而是沿着一次真实升级的生命周期，逐步展开。

假设我们的设备使用一颗STM32F4系列MCU，Flash从 0x08000000 开始布局。典型的存储划分如下：

地址范围	功能说明
0x08000000–0x08003FFF	Bootloader 区
0x08004000–0x0803FFFF	App Slot 0（当前运行）
0x08040000–0x0807DFFF	App Slot 1（备用区）
0x0807E000–0x0807FFFF	NVS 配置存储区

这种A/B双分区设计是OTA稳定性的基石。它意味着即使新固件写入一半断电，下次上电仍可由Bootloader判断状态并继续原程序运行。

那么，当设备收到云端指令：“有新版固件，请升级”时，会发生什么？

首先是 接收与写入过程 。由于大多数MCU没有外部大容量存储，我们必须边收边写，不能缓存整个文件。这就要求数据流必须按扇区对齐处理，且每次写前先擦除。

#define FLASH_SECTOR_SIZE     4096
#define WRITE_BUFFER_SIZE     1024

static uint8_t write_buf[WRITE_BUFFER_SIZE];
static uint32_t buf_offset = 0;
static uint32_t flash_offset = 0; // 累计已写入字节数

这里有个工程细节容易被忽略：Flash写入必须以页为单位，但网络包大小未必对齐。因此我们采用缓冲机制，攒够一整块再批量写入，既减少擦除次数，也延长Flash寿命。

int ota_write_chunk(const uint8_t *data, size_t len) {
    for (size_t i = 0; i < len; i++) {
        write_buf[buf_offset++] = data[i];
        flash_offset++;

        if (buf_offset >= WRITE_BUFFER_SIZE) {
            uint32_t base_addr = APP_SLOT_1_ADDR + flash_offset - buf_offset;

            if (!flash_erase_if_needed(base_addr)) {
                return -1;
            }
            if (!flash_program(base_addr, write_buf, buf_offset)) {
                return -1;
            }
            buf_offset = 0;
        }
    }
    return 0;
}

注意 flash_erase_if_needed 的实现逻辑：只有当目标地址所在的扇区尚未擦除时才执行擦除。频繁擦写是Flash损坏的主要原因，所以这个判断至关重要。

最后别忘了收尾工作——传输结束时缓冲区可能还有残余数据：

int ota_final_flush(void) {
    if (buf_offset > 0) {
        uint32_t addr = APP_SLOT_1_ADDR + flash_offset - buf_offset;
        uint32_t aligned_addr = addr & ~(FLASH_SECTOR_SIZE - 1);

        flash_erase_if_needed(aligned_addr);
        flash_program(aligned_addr, write_buf, buf_offset);
        buf_offset = 0;
    }
    return 0;
}

为什么要对地址做向下对齐？因为Flash擦除最小单位通常是4KB扇区。哪怕只改了一个字节，也得擦掉整个扇区。这是硬件限制，无法绕过。

接下来进入最关键的环节： 验证与激活 。

很多人以为“能跑起来就行”，但在安全性日益重要的今天，这远远不够。攻击者完全可以在传输链路上注入恶意固件，导致设备沦陷。所以我们至少要做两件事：

检查完整性（是否传输出错）
验证来源可信（是否官方签发）

最简单的做法是CRC校验。虽然不具备抗篡改能力，但对于信号干扰严重的工业现场，至少可以避免因比特翻转导致的崩溃。

uint32_t calculate_image_crc(uint32_t start_addr, uint32_t size) {
    uint32_t crc = 0xFFFFFFFF;
    uint8_t *p = (uint8_t *)start_addr;
    for (uint32_t i = 0; i < size; i++) {
        crc = crc32_update(crc, p[i]);
    }
    return crc ^ 0xFFFFFFFF;
}

配合固件头结构，我们可以快速识别有效镜像：

typedef struct {
    uint32_t magic;           // 固定魔数，如 0x12345678
    uint32_t image_size;
    uint32_t crc;             // 原始数据CRC
    uint8_t  version[16];      // 版本号字符串
} firmware_header_t;

启动时先检查魔数：

int verify_firmware(uint32_t fw_addr, uint32_t expected_crc) {
    firmware_header_t *hdr = (firmware_header_t *)fw_addr;
    if (hdr->magic != 0x12345678) {
        return -1;
    }
    uint32_t actual_crc = calculate_image_crc(
        fw_addr + sizeof(firmware_header_t),
        hdr->image_size
    );
    return (actual_crc == expected_crc) ? 0 : -1;
}

如果追求更高安全等级，则应引入非对称加密签名机制。例如用RSA私钥在服务器端对固件摘要签名，设备端用预置公钥验证。这样即便攻击者截获固件也无法伪造合法签名。

不过要注意：MCU上做SHA256+RSA运算开销不小，建议选择带硬件加密引擎的芯片（如STM32H7、nRF9160），否则一次验证可能耗时数百毫秒，影响用户体验。

现在，新固件已经完整、正确地写入Slot 1，下一步就是告诉系统：“下次启动请运行我”。

这就轮到 Bootloader登场 了。它是整个OTA流程的最终仲裁者。

系统上电后，第一段执行的代码不是main函数，而是Bootloader。它的任务很简单但也极关键：

“谁该成为下一个主角？”

void bootloader_main(void) {
    img_status_t slot0_status = check_image_status(APP_SLOT_0_ADDR);
    img_status_t slot1_status = check_image_status(APP_SLOT_1_ADDR);

    uint32_t jump_addr = 0;

    if (slot1_status == IMG_VALID && slot0_status != IMG_VALID) {
        jump_addr = APP_SLOT_1_ADDR;
    } else if (slot0_status == IMG_VALID) {
        jump_addr = APP_SLOT_0_ADDR;
    } else {
        // 两个都无效？尝试恢复出厂或进入DFU模式
        enter_recovery_mode();
        return;
    }

    bootloader_jump_to_app(jump_addr);
}

其中 check_image_status 会读取对应分区头部信息，并结合NVS中保存的状态标记（如“pending”、“valid”）综合判断。

跳转逻辑本身并不复杂，但涉及底层操作必须严谨：

void bootloader_jump_to_app(uint32_t app_addr) {
    if (*((volatile uint32_t*)app_addr) == 0xFFFFFFFF) {
        return; // 地址为空，无有效代码
    }

    __disable_irq();                    // 关闭所有中断
    SysTick->CTRL = 0;                  // 停止系统滴答定时器

    uint32_t *vector_table = (uint32_t *)app_addr;
    uint32_t stack_ptr = vector_table[0];
    uint32_t reset_handler = vector_table[1];

    __set_MSP(stack_ptr);               // 切换主堆栈指针
    ((void(*)(void))reset_handler)();   // 跳转至新固件复位函数
}

这段代码的关键在于：
- 必须关闭中断，防止跳转途中发生异常；
- 要重设MSP（Main Stack Pointer），否则新固件使用旧堆栈可能导致崩溃；
- 不要试图“返回”原程序，这是单向跳转。

有趣的是，很多开发者在这里踩坑：他们误以为可以通过函数调用方式“加载”新固件，但实际上这是两个独立的程序上下文。正确的做法是彻底移交控制权，就像MCU刚上电一样重新开始。

整个流程走到这里，还差最后一环： 回滚机制 。

理想情况下，新固件启动后会进行自检，确认一切正常，然后通过调用接口将自身标记为“valid”。但如果启动失败呢？

这时候就需要一种“心跳机制”来判断新固件是否真正存活。常见做法是在NVS中设置一个“pending_commit”标志，新固件成功运行后清除该标志；若下次启动发现该标志仍存在，则认为上次升级失败，自动回退到旧版本。

// 新固件首次运行时调用
void mark_current_firmware_stable(void) {
    nvs_set_value("fw_status", "valid");   // 标记为稳定
    nvs_erase_key("pending_commit");       // 清除待定标记
}

而Bootloader则始终关注这一状态：

if (slot1_status == IMG_PENDING_COMMIT) {
    // 检查是否超时未确认
    if (get_boot_counter() > MAX_BOOT_ATTEMPTS) {
        rollback_to_previous();
    } else {
        increment_boot_counter();
        jump_addr = APP_SLOT_1_ADDR;  // 再给一次机会
    }
}

这种设计使得系统具备了“自愈”能力。即使新固件存在严重Bug，最多重启几次就会自动切回旧版，避免永久性宕机。