高速视觉伺服系统（二）

高速视觉伺服系统研究

最新推荐文章于 2025-10-13 08:56:27 发布

原创最新推荐文章于 2025-10-13 08:56:27 发布 · 2.2k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #高速伺服 #目标追踪

算法相关同时被 2 个专栏收录

10 篇文章

订阅专栏

计算机视觉

3 篇文章

订阅专栏

接着上期：https://blog.youkuaiyun.com/power1_power2/article/details/80084544

算法对比

误差公式
这里写图片描述

D<W/16  :  status A+: 成功追踪
W/16 <D<3W/16 :  status A-: 可以追踪
D>W/16 :  status B: 追踪失败
Invisible  :  status C: 无法追踪（不在范围）

这里写图片描述
算法对比中采用了以下误差计算公式，其中w代表图像的宽度，H代表其高度，整个误差公式表示被追踪后图像的中心于追踪目标的中心距离，其中D的大小用右边的图表征了四种情况，接着利用样本去测试，显示结果如下，可以看到，如果使用HSV算法，只要追踪失败一次，基本很难再次锁定目标，而使用背景减法，则基本可以保证目标追踪的准确性。也就是说，证明我们算法的有效性，即带有视点转换的背景减法。
这里写图片描述

研究问题及实施方案

这里写图片描述
接下来就是研究问题及实施方案，通过这个流程图，我们很容易发现，流程的每一步都会产生一些研究问题。首先在预处理过程中，由于高速相机的帧率通常在200fps以上，曝光时间低于5ms，如果是在室内使用进光量严重不足，会导致图像的对比度和色彩都很差。在提取目标过程中，如果我们的目标形态比较复杂，那么久需要背景分割，而此时背景使动态的，也是业界的一个难题。另外检测目标的算法速度也非常重要。在摄像头追踪目标的过程中，需要采取一切手段进行加速。

高速相机原始图像质量：
进光量不足→图像对比度不足
这里写图片描述
方案：在DCT域中使用随机共振（Stochastic resonance），DCT中系数的低方差代表低能量（低对比度）。SR的机制是增加DCT系数分布的方差，导致对比度的增加。
室内进光亮不足。随机共振（SR）是一种非线性物理现象，是指一些非线性系统的输出信号可以通过在一定条件下加入适当的噪声来增强。目前常见的利用DCT域进行图像增强，由于强度分布的不连续性，图像边界有时会出现多余的边缘。

动态背景下的背景分割&目标的快速检测
动态背景的背景分割：全卷积网络(FCN) +全连接条件随机场(DenseCRF) 精确分割:
前端使用FCN进行特征粗提取，后端使用DenseCRF优化前端的输出，最后得到分割图.

动态背景下的背景分割&目标的快速检测的问题，我们打算利用全卷积网络(FCN) +全连接条件随机场(DenseCRF) 精确分割进行动态背景的背景分割，分类使用的网络通常会在最后连接几层全连接层，它会将原来二维的矩阵（图片）压缩成一维的，从而丢失了空间信息，最后训练输出一个标量，这就是我们的分类标签。而图像语义分割的输出需要是个分割图，且不论尺寸大小，但是至少是二维的。所以，需要丢弃全连接层，换上全卷积层，而这就是全卷积网络了。对于每个像素具有类别标签还有对应的观测值，这样每个像素点作为节点，像素与像素间的关系作为边，即构成了一个条件随机场。而且我们通过观测变量来推测像素对应的类别标签。
更快的追踪算法：核相关滤波算法（ Kernel Correlation Filter ）

追踪算法，我们打算尝试核相关滤波算法，这是一种鉴别式追踪方法，这种方法是在追踪过程中训练一个目标检测器，使用目标检测器去检测下一帧预测位置是否是目标，然后再使用新检测结果去更新训练集进而更新目标检测器。而在训练目标检测器时一般选取目标区域为正样本，目标的周围区域为负样本，当然越靠近目标的区域为正样本的可能性越大。算法的主要目的是训练和函数，核函数训练完成之后，新来的样本直接进行映射到核空间，然后使用训练得到的函数进行运算得到函数值，对所有的位置都进行计算，就能快速的检测到目标的位置所在。文章中为了介绍方便，作者使用了单通道一维的数据表示去进行讲解，可以直接扩展到二维的情况。一维的情况下就是矩阵想乘的问题了，就是矩阵分析当中学过的左乘一个单位矩阵和右乘一个单位矩阵。左乘是行变换，右乘列变化。目的就是得到更多的样本，每乘一次都是一个新的样本，这样的话就可以多出来n*n个样本了，这就是循环矩阵在这里最大的用处，制造样本的数量，以图像的形式展示就是这样的，一个样本经过循环矩阵之后就可以产生这么多的样本。
系统搭建

整体系统示意图+系统搭建实拍图+相机与振镜近拍图：基本流程包括：
1.摄像机连续捕获乒乓球高速飞行的视频帧。
2.处理器及时处理由摄像机捕获到的图片，通过检测算法检测出球在图片中的区域，得到二维位置。
3.将位置信息交付给数据采集卡，使其在乒乓球偏离图像中心区域的时候输出模拟信号。
4.模拟信号驱动电机，让两片扫描振镜根据要求旋转，调整相机视线位置。

总结与展望

高速视觉伺服系统在体育比赛、车辆碰撞检测、昆虫观察等领域都有重要作用。更好的硬件结构和更快的追踪算法以实现“自动对焦”，使摄像机保持正确的视角方向。这将是以后研究的重点方向。

文献调研：
[1] Okumura K, Oku H, Ishikawa M. High-speed gaze controller for millisecond-order pan/tilt camera[C]// IEEE International Conference on Robotics and Automation. IEEE Xplore, 2011:6186-6191.
[2] Henriques J F, Rui C, Martins P, et al. High-Speed Tracking with Kernelized Correlation Filters[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(3):583.
[3] Okumura K, Oku H, Ishikawa M. Acitve projection ar using high-speed optical axis control and appearance estimation algorithm[C]// IEEE International Conference on Multimedia and Expo. IEEE, 2013:1-6.
[4] Hare S, Saffari A, Torr P H S. Struck: Structured output tracking with kernels[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 38(10):2096.
[5] Okumura K, Oku H, Ishikawa M. Optical gaze control system to realize more high-speed active vision. J. Robot. Soc. Jpn. 2011;29:201–211. Japanese.

如果觉得本文写的还不错的伙伴，可以给个关注一起交流进步，如果有在找工作且对阿里感兴趣的伙伴，也可以发简历给我进行内推：
在这里插入图片描述