计算机视觉与OpenCV入门指南
1. 计算机视觉概述
计算机视觉是一个广阔的领域,它是将来自静态或视频相机的数据转换为决策或新表示的过程,所有这些转换都是为了实现特定目标。输入数据可能包含一些上下文信息,决策可以是对场景内容的判断,新表示则可以是对图像的处理转换。
1.1 计算机视觉的挑战
人类视觉系统非常复杂,大脑会将视觉信号分成多个通道,有注意力系统来识别重要部分,还有大量反馈机制和跨感官关联。然而,机器视觉系统相对简单,计算机接收到的只是相机或磁盘中的数字网格,这些数字包含大量噪声,难以直接从中获取有效信息。
从二维图像重建三维场景是一个不适定问题,因为同一个二维图像可以代表无限多种三维场景组合,而且数据还会受到噪声和失真的影响,这些影响来自于环境变化、镜头和机械设置的缺陷、传感器的有限积分时间、电子设备的噪声以及图像压缩伪像等。
1.2 应对挑战的方法
- 利用上下文信息 :在实际系统设计中,可以使用额外的上下文知识来克服视觉传感器的限制。例如,移动机器人在寻找订书机时,可以利用书桌通常在办公室内,订书机大多在书桌上的事实,排除不可能的位置,还能获得隐含的尺寸参考。在图像检索任务中,照片中也可能包含一些无意的隐含信息。
- 机器学习建模 :可以使用机器学习技术对上下文信息进行显式建模,将隐藏变量(如大小、重力方向等)与标记训练集中的值进行关联。也可以使用额外的传感器来测量隐藏的偏差变量,如使用激光测距仪测量深度以准确测量物体的大小。
- 处理噪声
超级会员免费看
订阅专栏 解锁全文
1102

被折叠的 条评论
为什么被折叠?



