CAN 报文收不到怎么办？

原创于 2025-12-07 09:19:02 发布 · 348 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#CAN通信 # 报文接收 # 故障排查

AI助手已提取文章相关产品：

CAN 报文收不到？别急，我们来一步步“破案” 🔍

你有没有遇到过这种情况：代码写得严丝合缝，MCU 也跑起来了，CAN 初始化看着没问题，可就是死活收不到对方发的报文？明明用示波器能看到总线在“动”，但你的 FIFO 像是睡着了一样——一个中断都不触发。

说实话，这种问题最折磨人。它不像编译报错那样明确告诉你哪里错了，而是让你在硬件、驱动、配置、协议之间反复横跳，怀疑人生。🤯

今天我们就来当一回“嵌入式侦探”，不讲空话套话，直接从实战角度出发，把“CAN 收不到报文”这件事掰开揉碎，看看背后到底藏着哪些坑。你会发现，大多数时候根本不是什么高深难题，而是某个看似不起眼的小细节出了问题。

先问自己：是真的“没收到”，还是“以为没收到”？

这是排查的第一步，也是最关键的一步。很多人一上来就改代码、调波特率，结果忙了半天发现—— 其实报文早就到了，只是你没看到而已 。

那怎么判断是不是“假性收不到”呢？

✅ 检查接收中断是否真的没进

写个最简单的测试程序：

void HAL_CAN_RxFifo0MsgPendingCallback(CAN_HandleTypeDef *hcan)
{
    printf("🎉 收到报文！ID: 0x%03X\n", RxHeader.StdId);
}

然后打开串口，看有没有打印。如果没有，先确认这个回调函数有没有被注册，以及中断有没有使能：

if (HAL_CAN_ActivateNotification(&hcan1, CAN_IT_RX_FIFO0_MSG_PENDING) != HAL_OK)
{
    Error_Handler();
}

🚨 小贴士：有些初学者只初始化了 CAN，却忘了调 HAL_CAN_Start() 或忘记开启中断通知，导致虽然硬件在工作，但 CPU 根本不知道有数据来了。

✅ 查一下 FIFO 是否满了但没处理

如果你用了轮询方式读取（比如在主循环里不断调 HAL_CAN_GetRxFifoFillLevel() ），要注意 FIFO 溢出的问题。

STM32 的 CAN 外设默认 FIFO 深度是 3 级。如果主机处理太慢，新来的报文就会把旧的挤掉——你以为丢了，其实是被覆盖了！

解决办法有两个：
- 提高速度：把接收逻辑放进中断；
- 扩容：启用 FIFO 锁定模式（ ReceiveFifoLocked = ENABLE ）防止自动丢弃，或者尽快消费数据。

✅ 打印错误寄存器状态

CAN 控制器很聪明，它会默默记录通信中的各种异常。你可以读一下 hcan.Instance->ESR （Error Status Register）来看看有没有线索：

位域	含义
`LEC[2:0]`	最近一次错误类型（0=无错，1=位错误，2=格式错误，…）
`TEC[7:0]`	发送错误计数器
`REC[7:0]`	接收错误计数器

如果 TEC 或 REC 超过 96，说明网络环境很差或存在硬件问题；如果 LEC 经常非零，那就要仔细分析具体是哪类错误了。

💡 实战建议：加一句日志定期输出这些值，调试时能省下大量时间。

物理层：信号真的传过来了吗？

现在我们进入真正的“破案阶段”。第一步永远是从物理层开始——因为再完美的软件也无法拯救一根断掉的线。

🔌 看看接线对不对

最常见的几个接线错误包括：
- TX/RX 接反了 ：MCU 的 TX 接到了收发器的 RX，反之亦然；
- CAN_H / CAN_L 反接 ：特别是在手工压线或使用杜邦线时容易搞混；
- 只接了一端 ：忘了接另一节点，或者中间某个连接器松了。

⚠️ 注意：CAN 是差分信号，H 和 L 必须成对存在。单边断开会破坏共模抑制能力，严重时整个网络都瘫痪。

推荐做法：用万用表通断档检查每根线的连通性，尤其是跨板子或多设备布线时。

🔋 电源稳不稳？

CAN 收发器一般需要独立供电（5V 或 3.3V）。曾有个项目折腾三天找不到原因，最后发现是某块板子上的 LDO 输出只有 2.8V —— 芯片勉强工作，但驱动能力不足，发出的差分电压太小，其他节点识别困难。

怎么查？
- 用万用表测收发器 VCC 引脚电压；
- 上电瞬间观察是否有跌落（可用示波器抓）；
- 如果用了隔离电源（如ADM3053），还要检查隔离侧供电是否正常。

📏 终端电阻加了吗？加对了吗？

这个问题说烂了，但依然每天都有人栽在这里。

正确姿势：

总线两端各一个 120Ω 电阻；
中间节点不要加；
实际阻值最好测量一下，劣质电阻可能偏差很大。

错误案例：

只在一端加 → 信号反射严重，高速下误码率飙升；
两端都没加 → 高阻态，总线电平漂移，采样失败；
所有点都加 → 等效负载过低，驱动芯片发热甚至损坏。

🧪 实验验证：在 500kbps 下，未加终端电阻时，示波器可以看到明显的振铃现象（ringing），持续时间超过一位时间，极易造成采样错误。

可以用示波器 CH1 接 CAN_H，CH2 接 CAN_L，设置为差分模式（CH1 - CH2），观察显性态电压是否稳定在 ~2V 左右。若低于 1.5V，就得查终端电阻和线路损耗了。

波特率匹配：大家说话节奏一致吗？

假设物理层一切正常，接下来要看的是——你们是不是“说的不是一种语言”。

举个例子：A 节点以 500kbps 发送，B 节点却按 250kbps 接收。结果就是 B 把每个位采成了两个，帧结构完全错乱，CRC 必然校验失败，最终被丢弃。

所以第一个灵魂拷问是： 所有节点的波特率设置真的相同吗？

如何精准配置波特率？

以 STM32 为例，关键参数都在 CAN_BTR 寄存器里：

hcan1.Init.Prescaler = 6;
hcan1.Init.TimeSeg1 = CAN_BS1_13TQ;
hcan1.Init.TimeSeg2 = CAN_BS2_2TQ;
hcan1.Init.SyncJumpWidth = CAN_SJW_1TQ;

这几个参数决定了每个位占多少个时间量子（tq），进而决定实际波特率。

计算公式如下：
$$
\text{Bit Rate} = \frac{f_{PCLK}}{(Prescaler) \times (1 + TS1 + TS2)}
$$

比如 APB1 = 42MHz，Prescaler=6，则 tq = 143ns，总位时间为 (1+13+2)=16 tq ≈ 2.28μs → 实际波特率 ≈ 438kbps？等等……这不对啊！

💥 错了！这里很多人忽略了一个细节： TimeSeg1 包含 Sync_Seg 吗？

答案是： 不包含 。Sync_Seg 固定为 1 tq，而 TimeSeg1 对应 Prop_Seg + Phase_Seg1。

所以上面的例子中：
- Sync_Seg: 1 tq
- TS1 (Prop+PS1): 13 tq
- TS2 (PS2): 2 tq
- 总长度：1 + 13 + 2 = 16 tq → 正确！

因此只要保证：
- 所有节点使用相同的 PCLK；
- Prescaler、TS1、TS2 设置一致；
- 采样点位置合理（通常建议在 70%~90% 之间）

就能确保同步。

🔧 工具推荐：使用 CAN Bit Timing Calculator 输入时钟频率和目标波特率，自动生成合法组合，避免手算出错。

采样点真的合适吗？

即使波特率数值相同，不同节点的采样点偏移也可能导致通信不稳定。

例如：
- A 节点采样点在 87.5%（14/16）
- B 节点在 62.5%（10/16）

虽然都能通信，但在电磁干扰强或线缆较长时，边缘抖动可能导致一方采样失败。

最佳实践：
- 统一设计规范，所有节点采用相同位定时参数；
- 在 DBC 文件或系统文档中标注推荐配置；
- 使用 CAN 分析仪测量实际采样时刻，验证一致性。

滤波器：你是不是把报文“拒之门外”了？

这是最容易被忽视的一个环节。很多工程师看到总线有活动，自己的控制器也在运行，就是收不到特定 ID 的报文，百思不得其解。

真相往往是： 滤波器把你想要的报文给屏蔽了 。

STM32 的滤波机制到底是怎么工作的？

STM32 的 CAN 控制器支持多种滤波模式，核心是通过一组“滤波器组”（Filter Bank）来决定哪些 ID 可以通过。

每个滤波器组可以配置为：
- 掩码模式（Mask Mode） ：一个 ID + 一个 Mask，表示“关心哪些位”
- 列表模式（List Mode） ：列出多个确切 ID，精确匹配

举个例子：

你想接收 ID 为 0x100 到 0x10F 的所有标准帧（11-bit ID）

正确配置应该是：

sFilterConfig.FilterIdHigh     = 0x100 << 5;    // 高11位左移5位放入寄存器
sFilterConfig.FilterMaskIdHigh = 0xFF0 << 5;    // 屏蔽低4位（即允许变化）
sFilterConfig.FilterMode       = CAN_FILTERMODE_IDMASK;
sFilterConfig.FilterScale      = CAN_FILTERSCALE_32BIT;

这样，只要 ID 的高 7 位是 0x10 ，低 4 位任意，都能通过。

❌ 常见错误：
- 写成 FilterMaskIdHigh = 0xFFFF << 5 → 相当于全匹配，只能收 0x100
- 忘记左移 5 位 → 寄存器放的是 ID[15:0]，但实际有效位是 ID[10:0]，必须左移补足
- 滤波器组分配错误（比如用了已被占用的 Bank）

调试技巧：临时关闭滤波

当你不确定是不是滤波问题时，最简单粗暴的方法是： 暂时让所有报文都通过 。

怎么做？

设置一个“通杀”规则：

sFilterConfig.FilterIdHigh = 0x0000;
sFilterConfig.FilterMaskIdHigh = 0x0000;  // 全0掩码 = 所有位都不关心 → 全部通过

然后观察是否能收到任何报文。如果这时突然“活了”，那就基本可以锁定是滤波配置问题。

🛠️ 进阶操作：配合 CAN 分析仪对比，看看你期望的 ID 是否确实出现在总线上。

工作模式陷阱：你在“自言自语”吗？

还有一个隐藏很深的坑： CAN 控制器虽然启用了，但它根本没连上总线 。

为什么？因为它处于“环回模式”或“静默模式”。

几种常见模式的区别：

模式	是否能发	是否能收	是否影响总线	用途
正常模式	✅	✅	✅	正常通信
环回模式	✅	✅	❌（内部转发）	自检测试
静默模式	❌	✅	❌	监听总线，不参与仲裁
环回+静默	✅（自收）	✅	❌	完全隔离测试

实际案例：

某次调试中，同事一直收不到上级发送的命令帧，查遍软硬件无果。最后发现初始化代码里写着：

hcan1.Init.Mode = CAN_MODE_LOOPBACK;

……原来是测试完成后忘记改回来了 😅

📌 教训：调试用的特殊模式一定要做好标记，上线前逐项复查。

发送方真的在发吗？别被“我以为”骗了

有时候问题根本不在于你这边，而在对面—— 那个你以为在发的人，其实根本没发 。

怎么办？不能光靠猜，得亲眼看见。

工具	优点	缺点
PCAN-USB + PCAN-View	成本低，即插即用	功能较基础
CANalyzer / CANoe	功能强大，DBC 支持好	昂贵，学习曲线陡
Saleae Logic Pro + CAN 解码	可视化强，支持混合信号分析	需要额外探头
自制 STM32 CAN 监听器	成本极低，可定制	开发耗时

多节点系统的“暗礁”：总线负载与冲突

当你把两个节点连起来能通，三个就出问题，四个干脆罢工……这时候就得考虑系统级因素了。

总线负载过高

CAN 协议本身没有重传调度机制。如果多个节点同时大量发送，很容易造成总线拥堵。

表现症状：
- 报文延迟大；
- TEC（发送错误计数）持续上升；
- 某些低优先级 ID 几乎收不到。

解决方案：
- 合理规划报文周期，避免“扎堆发送”；
- 关键报文提高 ID 优先级（ID 越小优先级越高）；
- 加入流量控制机制，比如发送前检测最近 N 秒内总线空闲率。

ID 冲突 or DBC 不统一

团队协作开发时，经常出现“两个人定义了同一个 ID”的情况。

后果轻则数据混乱，重则引发仲裁失败、错误帧频发。

应对策略：
- 使用统一的 DBC 文件管理所有 ID 分配；
- 建立版本控制系统（Git + DBC）；
- 上电时进行“ID 冲突检测”（监听是否有相同 ID 频繁发送）；

🧩 小技巧：可以在 DBC 中预留一段“调试专用 ID 区间”（如 0x700~0x7FF），避免占用正式通信资源。

高级调试技巧：让 CAN 自己“说出来”

除了被动观察，我们还可以主动让 CAN 控制器告诉我们它的状态。

读取错误寄存器（ESR）

前面提过， LEC[2:0] 字段非常重要：

LEC 值	错误类型	可能原因
0	No Error	正常
1	Stuff Error	连续6个同色位，可能是波特率不准或干扰
2	Form Error	帧格式错误（EOF、ACK 等固定位出错）
3	Ack Error	发送后无人应答 → 对方没收到 or 处于 bus-off
4	Bit Error	发送的位与总线不一致 → 自身故障 or 干扰
5	CRC Error	校验失败 → 传输过程受干扰

📊 数据说话：如果你发现 LEC=3 （Ack Error）频繁出现，说明你的报文发出去了，但没人回应。这时候应该去查接收方的状态，而不是继续调发送参数。

监控 TEC/REC 数值

这两个计数器就像是 CAN 节点的“健康指标”。

正常情况下 TEC < 50，REC < 50；
超过 96 进入“警告状态”；
达到 255 触发 bus-off，彻底退出通信。

可以通过定时任务每隔几秒打印一次：

uint8_t tec = (hcan.Instance->ESR >> 16) & 0xFF;
uint8_t rec = (hcan.Instance->ESR >> 8)  & 0xFF;
printf("TEC=%d, REC=%d\n", tec, rec);

如果发现某个节点 TEC 持续增长，基本可以判定它是“问题源”——要么硬件异常，要么软件频繁重发。

设计建议：从源头规避风险

与其每次都“救火”，不如一开始就设计得更 robust。

✅ 上电流程标准化

// 1. 进入初始化模式
CAN_EnterInitMode();

// 2. 配置位定时、滤波器等
MX_CAN1_Init();

// 3. 启动 CAN 控制器
HAL_CAN_Start(&hcan1);

// 4. 开启中断
HAL_CAN_ActivateNotification(...);

// 5. 切换至正常模式
CAN_ExitInitMode();

顺序不能乱！否则配置可能无效。

✅ 加入自检机制

每次上电做一次本地环回测试：

// 设置为环回模式
hcan1.Init.Mode = CAN_MODE_LOOPBACK;
MX_CAN1_Init();

// 发送一帧
HAL_CAN_AddTxMessage(&hcan1, &txHeader, data, &txMailbox);

// 等待接收中断
if (WaitForRx(100ms)) {
    printf("✅ CAN 自检通过");
} else {
    printf("❌ CAN 自检失败");
}

通过后再切换到正常模式接入网络。