计算机视觉:概念、技术与应用
1. 目标检测
目标检测是计算机视觉中的主要挑战。当与机器学习和深度学习方法结合使用时,它在准确性和测试时间方面都能得到显著提升。目前有许多深度学习预训练模型可用于目标检测,如卷积神经网络(CNN)、基于区域的卷积神经网络(R - CNN)、You Only Look Once(YOLO)、Fast R - CNN等。
- CNN :计算机视觉的基本结构,它结合了图像分类、目标分类和定位功能。由于其速度和准确性,在过去几年中已被证明是目标检测和分类的可靠方法。
- 图像分类 :输入图像经过深度卷积网络,该网络将特征向量传递给全连接层,全连接层提供不同的类别分数,最终输出整个图像的内容。
- 分类与定位 :使用目标分类和定位算法来确定检测到的目标是什么以及在哪里。除了预测类别标签外,还会在图像中的目标区域周围绘制边界框。与目标检测的区别在于,定位场景中目标的数量是预先已知的。
- 图像分割
- 语义分割 :输出图像为每个像素分配类别标签。它类似于图像分类,但不是为整个图像分配单个类别标签,而是为输入图像的每个像素生成类别标签。语义分割不区分实例,当两个相似对象靠近时,它会将整个像素块标记为同一类别。可以通过分类方法进行语义分割,如滑动窗口法,但该方法计算成本高。更高效的模型是全卷积网络。
- 滑动窗口
- 语义分割 :输出图像为每个像素分配类别标签。它类似于图像分类,但不是为整个图像分配单个类别标签,而是为输入图像的每个像素生成类别标签。语义分割不区分实例,当两个相似对象靠近时,它会将整个像素块标记为同一类别。可以通过分类方法进行语义分割,如滑动窗口法,但该方法计算成本高。更高效的模型是全卷积网络。
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



