45、深度计算机视觉:从目标检测到语义分割

深度计算机视觉:从目标检测到语义分割

1. 目标检测

在图像中对单个对象进行分类和定位是一项基础任务,但实际应用中,图像往往包含多个对象,如花卉数据集中的情况。目标检测就是对图像中的多个对象进行分类和定位的任务。

1.1 传统滑动 CNN 方法

过去,常见的做法是使用一个经过训练的、可对单个对象进行分类和定位的 CNN,然后将其在图像上滑动。例如,将图像划分为 6×8 的网格,让 CNN 在所有 3×3 的区域上滑动。当 CNN 位于图像左上角时,它可能检测到最左边玫瑰的一部分;向右移动一步后,又会再次检测到同一朵玫瑰。而且,由于对象大小各异,还需要在不同大小的区域上滑动 CNN,如在 4×4 的区域上。

这种方法虽然简单直接,但会多次检测到同一对象,只是位置略有不同。因此,需要进行后处理来去除不必要的边界框,常用的方法是非极大值抑制(Non-Max Suppression),具体步骤如下:
1. 为 CNN 添加一个额外的目标存在性输出,用于估计图像中是否存在花卉的概率。可使用 Sigmoid 激活函数,并通过二元交叉熵损失进行训练。然后去除目标存在性得分低于某个阈值的所有边界框,这样可以排除那些实际上不包含花卉的边界框。
2. 找到目标存在性得分最高的边界框,去除与它重叠度较高(如 IoU 大于 60%)的所有其他边界框。
3. 重复步骤 2,直到没有更多的边界框需要去除。

这种简单的目标检测方法效果不错,但需要多次运行 CNN,速度较慢。

1.2 全卷积网络(FCN)

全卷积网络(FCN)是一种更高效的滑动 CNN 的方法。其核心思想是将 CNN 顶部的密集

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值