关于“高帧率放大了模型对位置噪声的敏感性”的理解

最新推荐文章于 2025-12-14 20:30:00 发布

原创最新推荐文章于 2025-12-14 20:30:00 发布 · 473 阅读

CC 4.0 BY-SA版权

文章标签：

14 篇文章

订阅专栏

这是理解oc-sort跟踪算法思想最关键的一步。

我们用一个非常简单的比喻和具体的数字来把它彻底讲清楚。

第0秒：你测量蜗牛位置在 100毫米 处。（假设这次没误差）
第10秒：蜗牛奋力爬了 30毫米，真实位置应该在 130毫米 处。
- 但你的尺子有误差，这次测量结果可能是 132毫米（+2毫米误差）。
你计算速度： (132 - 100) / 10 = 3.2 毫米/秒。
结论：真实速度是 3.0 毫米/秒，你算出来是 3.2 毫米/秒。误差不大，对吧？因为蜗牛爬行的真实距离 (30毫米) 远远大于你尺子的测量误差 (2毫米)。

第0秒：你测量蜗牛位置在 100毫米 处。（假设这次没误差）
第1秒：蜗牛只爬了 3毫米，真实位置应该在 103毫米 处。
- 你的尺子还是那个尺子，误差依然是±2毫米。这次测量结果同样可能是 105毫米（+2毫米误差）。
你计算速度： (105 - 100) / 1 = 5.0 毫米/秒。
结论：真实速度是 3.0 毫米/秒，你算出来是 5.0 毫米/秒！误差巨大！为什么？因为蜗牛爬行的真实距离 (3毫米) 和你尺子的测量误差 (2毫米) 处在了同一个数量级！

这就是作者说的“高帧率放大了模型对位置噪声的敏感性”。

在高帧率视频（比如60 FPS）中，一个行人可能在一帧的时间里只移动了3个像素。但你的检测器（比如YOLO）可能本身就有±2个像素的定位噪声。

看到了吗？仅仅因为一个微小的、不可避免的2像素定位噪声，你估计出的速度就在1到5之间剧烈波动，而真实速度其实是稳定的3。

卡尔曼滤波器的核心是 预测（Predict） 和 更新（Update）。

错误的估计: 在上面第二种情况里，滤波器在第1帧结束时，得到了一个错误的速度估计值：5 px/frame。
基于错误的预测: 当第2帧到来之前，滤波器会进行预测。它会根据当前状态（位置105，速度5）来预测第2帧的位置：预测位置(t+1) = 105 + 5 = 110px。
误差的累积: 而物体的真实位置其实应该是 103 + 3 = 106px。看，仅仅一步，由速度估计错误引入的误差，已经累积到了对下一帧位置的预测中。预测位置(110)和真实位置(106)已经差了4个像素。
遮挡时的情况: 如果此时物体被遮挡了，那么滤波器就只有预测，没有更新（因为没有观测数据来纠正它）。它会坚定地按照速度=5 这个错误信息一直预测下去：
- t+2 帧: 110 + 5 = 115
- t+3 帧: 115 + 5 = 120
- …
  轨迹会迅速地偏离真实路径，这就是**“误差在遮挡期间的累积”**。