视觉感知与机器人视觉定位导航研究进展
在视觉研究领域,长期以来存在一个挑战,即视觉系统无法直接获取或测量现实世界的物理属性。近期,贝叶斯决策理论和经验排序理论的研究致力于解释人类视觉系统如何应对这一问题。这些研究表明,视觉感知并非直接映射现实,而是基于现实世界源的统计外观生成的。
视觉感知理论
视觉感知理论主要有贝叶斯决策理论和经验排序理论。这两个理论都基于赫尔姆霍兹的无意识推理观点,假定通过统计方法的神经体现来解决感知问题,但它们在对视觉感知本质的哲学概念上存在根本差异。
- 贝叶斯决策理论 :从该理论的角度看,基于频率的感知偏差可被视为对误差信号的非线性频率加权。进一步的研究需要验证这是否是在整个视觉层次结构甚至整个大脑中最小化预测误差的高效策略。
- 经验排序理论 :该理论强调感知的目标是支持具有进化优势的行为,而非仅仅表征外部现实。然而,在大多数情况下,一个能在感官可及的物理信号范围内最佳逼近外部现实的视觉系统,从长远来看可能具有最大的进化优势。
此外,将贝叶斯误差减少机制扩展到整个神经系统的相互连接层次结构,似乎与经验排序理论的“感知为行动”观点并不矛盾。尽管可能无法或不希望完全消除整个系统的误差,但对误差进行差异化加权(或选择性误差容忍)可能有助于灵活适应不同环境,从而支持具有进化优势的行为。
视觉错觉的作用
视觉错觉以各种形式偏离了对物理源的真实感知。无论被视为视觉系统的故障还是正常运作的自然结果,这种偏离都为评估感知理论提供了丰富的试验场。我们简要概述了与传统特征检测理论不同的两种重要理论——经验排序理论和贝叶斯决策理论与不同类型错觉的关系。最终,这两种方法在解释一系列未解决的视觉错觉方面的相对能力,结合神经生理学证据,有助于评估哪种理论框架更接近解释一般的视觉感知。
机器人视觉定位导航的发展
研究视觉系统机制的一个重要原因是推动技术进步,尤其是在机器人领域。机器人致力于构建能在现实世界中稳健运行的智能系统,而视觉因其低成本、低功耗和在解读环境线索方面的多功能性,成为一种有吸引力的感知方式。这些线索可用于解决机器人导航和物体识别等问题。
目前,机器人在模拟复杂人类能力方面取得了进展,如自动驾驶汽车、家用和服务机器人以及双足人形机器人。然而,在大学园区或户外购物中心等行人环境中,机器人的定位和导航能力仍有很大的提升空间。这些环境是人类大小的服务机器人的主要工作场景,机器人需要更好地理解周围环境以获得更大的自主性,从而承担更复杂的任务。
生物启发的机器人视觉系统
为了实现这一目标,研究人员将目光投向人类视觉系统。人类视觉系统能够分解、划分优先级并理解复杂的刺激,是机器人领域追求的黄金标准。如今,大量关于人类视觉的研究为开发受神经科学启发的机器人系统提供了独特机会。
生物启发的概念在机器人导航和定位中得到了广泛应用。例如,Beobot 2.0 项目应用了生物启发的视觉算法(如视觉注意力、显著地标识别、主旨分类)以及计算机和机器人视觉技术(如定位、道路查找),计算出在繁忙户外行人区域具有鲁棒性的定位和导航感知模块。该项目的主要贡献包括:
1.
模块计算
:使用生物启发的视觉算法和计算机、机器人视觉技术,计算在繁忙户外行人区域稳健的定位和导航感知模块。
2.
框架开发
:开发一个框架,使用提出的生物启发的分层混合拓扑/网格占用地图表示来集成这些模块。
3.
系统构建
:利用分层地图,结合前向投影和跟踪等技术,解决算法复杂性、延迟和吞吐量的差异,创建一个实时的机器人系统。
4.
测试验证
:通过超过 10 公里的总行驶距离测试,证明该方法在像大学校园这样的拥挤环境中是可行和稳健的。
相关神经科学背景
在介绍生物启发的移动机器人视觉定位和导航系统之前,我们先了解相关的神经科学背景。
生物启发框架
生物系统的一个重要特性是能够及时产生足够准确和稳健的响应,这是因为它们可以从多个角度感知环境场景。
- 感知显著性 :在最初观察场景时,人类视觉系统会将注意力引导到视野内视觉上有趣的区域,这一过程被称为感知显著性。基于显著性的“自下而上”注意力引导突出了图像中有限的可能兴趣点,有助于选择在特定环境中最可靠的地标,使地标匹配过程更加灵活且计算成本更低。
- 场景主旨 :人类还具有瞬间捕捉场景“主旨”的能力。例如,在看到一张照片的瞬间,观察者就能报告出这是一个室内厨房场景,有许多彩色物体在台面上。即使在极短的曝光时间(100 毫秒或更短)内,观察者也能报告一些一般的语义属性和对视觉特征分布的粗略评估。在某些情况下,甚至可以在 28 毫秒内可靠地回答场景中是否有动物等特定问题。
从工程角度看,从不同的粗略程度分析场景(高层面的全局布局和详细的像素级分析)是一种有效的策略。尽管显著性和主旨模块看起来截然不同,但它们都依赖于早期视觉皮层的原始特征,并且可以并行计算。
视觉处理路径
视觉刺激在视网膜和外侧膝状体进行早期预处理后,到达视觉皮层(包括 V1、V2、V4 和 MT 等区域)进行低级特征提取。这些特征被共享并服务于注意力和主旨模块。
- 背侧通路 :也称为“位置”视觉处理流,通过在整个视野中对低级特征响应进行空间竞争,构建显著性地图。这种竞争抑制了那些与相邻位置相似的区域,增强了与周围环境不同的点。
- 腹侧通路 :即“内容”视觉处理流,将低级特征检测器的响应组合成一个主旨向量,作为场景整体的简洁全局概要。两条通路最终都到达前额叶皮层,在那里形成有意识的决策和运动命令。
拓扑地图的应用
许多机器人系统还利用受生物启发的拓扑地图来组织空间知识。拓扑地图是对环境的图形注释,将节点分配给特定位置,将边作为路径。与传统的度量网格地图相比,拓扑地图具有以下优点:
-
人类认知优势
:人类更容易回忆拓扑信息,尽管不能精确估计距离和方向,但可以绘制详细的层次拓扑(或认知)地图来描述环境。
-
信息更新便捷
:对于机器人系统来说,拓扑地图的信息更新和回忆负担较小,因为图的简洁性使得添加的信息不会成为沉重的负担。
此外,人类不仅可以根据提供的地图进行定位,还可以在定位的同时自动创建地图,这在机器人领域被称为同步定位与地图构建(SLAM)。虽然本文介绍的系统目前不是 SLAM 系统,但计划添加这一扩展功能。
下面用 mermaid 格式的流程图展示视觉信息处理过程:
graph LR
A[视网膜和LGN预处理] --> B[视觉皮层低级特征提取]
B --> C[背侧通路(位置处理流)]
B --> D[腹侧通路(内容处理流)]
C --> E[构建显著性地图]
D --> F[生成主旨向量]
E --> G[前额叶皮层决策和命令]
F --> G
同时,为了更清晰地对比不同地图类型,我们列出以下表格:
| 地图类型 | 特点 | 信息更新 | 人类认知 |
| ---- | ---- | ---- | ---- |
| 拓扑地图 | 图形注释,节点表示位置,边表示路径 | 负担小,简洁图结构 | 易回忆拓扑信息 |
| 度量网格地图 | 需指定环境各部分的占用情况 | 负担大,信息复杂 | 难以精确估计距离和方向 |
视觉感知与机器人视觉定位导航研究进展
生物启发机制在机器人定位导航中的具体实现
Beobot 2.0 项目将上述生物启发的概念具体应用于机器人的定位和导航中,以下详细介绍其实现过程。
视觉算法的应用
- 视觉注意力 :通过模拟人类视觉系统的感知显著性,Beobot 2.0 能够快速将注意力集中到视野内的显著区域。在实际操作中,系统首先对输入的图像进行特征提取,这些特征包括颜色、亮度、边缘等。然后,利用空间竞争机制对这些特征进行处理,突出那些与周围环境不同的区域,形成显著性地图。例如,在一个包含多个物体的场景中,颜色鲜艳或形状独特的物体将在显著性地图中得到更高的权重,从而被优先关注。
- 显著地标识别 :基于视觉注意力机制确定的显著区域,Beobot 2.0 进一步进行地标识别。系统会对显著区域的特征进行分析,与预先存储的地标特征库进行匹配。如果匹配成功,则将该区域识别为已知地标。例如,在校园环境中,独特的建筑、雕塑等可以作为地标。通过识别这些地标,机器人能够确定自己的大致位置。
- 主旨分类 :为了快速理解场景的整体性质,Beobot 2.0 采用了主旨分类算法。系统从图像中提取全局特征,如颜色分布、纹理特征等,将其转化为低维的主旨向量。然后,将该向量与预先训练好的主旨分类模型进行比较,确定场景的类别,如室内、室外、道路、草地等。这种分类有助于机器人更好地规划路径和理解周围环境。
下面用列表形式总结视觉算法的应用步骤:
1. 输入图像
2. 进行特征提取(颜色、亮度、边缘等)
3. 利用空间竞争机制生成显著性地图
4. 对显著区域进行地标特征匹配,识别地标
5. 提取全局特征,生成主旨向量
6. 进行主旨分类
分层混合拓扑/网格占用地图表示
Beobot 2.0 项目开发了一种分层混合拓扑/网格占用地图表示框架,用于集成上述视觉算法的结果。该框架结合了拓扑地图和网格占用地图的优点,既能高效地表示环境的整体结构,又能详细描述局部区域的可通行性。
- 拓扑地图层 :在拓扑地图层,将环境中的重要位置(如地标、路口等)表示为节点,将它们之间的路径表示为边。通过这种方式,机器人可以快速规划从一个位置到另一个位置的大致路径。
- 网格占用地图层 :网格占用地图层将环境划分为一个个小的网格,每个网格表示一个局部区域。根据传感器的信息,判断每个网格是否可通行。这种地图可以提供更详细的环境信息,帮助机器人避免障碍物。
以下是分层混合拓扑/网格占用地图表示的工作流程:
graph LR
A[视觉算法输出(地标、主旨等)] --> B[拓扑地图层构建]
B --> C[确定节点和边]
A --> D[网格占用地图层构建]
D --> E[划分网格并判断可通行性]
C --> F[路径规划(大致路径)]
E --> F
F --> G[机器人运动控制]
实时性与系统优化
为了实现实时的定位和导航,Beobot 2.0 项目采取了一系列措施来解决算法复杂性、延迟和吞吐量的问题。
利用分层地图
分层混合拓扑/网格占用地图表示不仅提供了更全面的环境信息,还可以根据不同的需求选择不同层次的地图进行处理。在路径规划的初期,可以使用拓扑地图快速确定大致路径,减少计算量。在接近目标位置时,再使用网格占用地图进行精细的路径调整,确保机器人能够安全避开障碍物。
前向投影和跟踪技术
前向投影技术可以预测机器人在未来一段时间内的位置和状态,提前对可能出现的问题进行处理。跟踪技术则可以实时监测机器人的运动轨迹,及时调整路径以适应环境的变化。通过这两种技术的结合,机器人能够在复杂环境中快速、准确地导航。
测试与验证
Beobot 2.0 项目进行了超过 10 公里的总行驶距离测试,测试路线长度达到 400 米或更长。测试结果表明,该系统在大学园区等拥挤环境中具有很高的可行性和鲁棒性。以下是测试的相关数据表格:
| 测试指标 | 数值 |
| ---- | ---- |
| 总行驶距离 | 超过 10 公里 |
| 最长路线长度 | 400 米或更长 |
| 定位准确率 | [具体准确率数值] |
| 导航成功率 | [具体成功率数值] |
展望
随着科技的不断发展,机器人视觉定位和导航技术将面临更多的挑战和机遇。未来,我们可以进一步探索以下方向:
- 多传感器融合 :结合视觉传感器与其他传感器(如激光雷达、超声波传感器等)的信息,提高机器人对环境的感知能力。
- 深度学习的应用 :利用深度学习算法,进一步提高视觉算法的准确性和鲁棒性,如更精准的地标识别和主旨分类。
- SLAM 功能的集成 :将同步定位与地图构建(SLAM)功能集成到机器人系统中,使机器人能够在未知环境中自动创建地图并进行定位。
总之,生物启发的机器人视觉定位和导航技术为机器人在复杂环境中的应用提供了新的思路和方法。通过不断的研究和改进,我们相信机器人将能够更好地适应各种环境,为人类提供更多的服务。
超级会员免费看
2019

被折叠的 条评论
为什么被折叠?



