CS231n Lecture 11：图像分割与检测（各种R-CNN, YOLO, SSD）

最新推荐文章于 2025-10-24 15:08:00 发布

原创

最新推荐文章于 2025-10-24 15:08:00 发布 · 4.6k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#R-CNN #Fast R-CNN #Faster R-CNN #YOLO #SSD

这篇博客介绍了图像分割与检测的重要任务，包括语义分割、单目标检测和目标检测。重点讲解了R-CNN系列（R-CNN, Fast R-CNN, Faster R-CNN）的工作原理，以及YOLO和SSD的快速目标检测方法。此外，还探讨了实例分割的Mask R-CNN，并对比了各种网络在精度和速度上的差异。" 133872683,19673332,Android直播美颜技术实现,"['Android开发', '图像处理', '直播技术', '美颜算法', '滤镜应用']

CS231n Lecture 11：图像分割与检测

图像的分割和检测的相关任务有不同的粒度，我们首先明确一下有关概念：

语义分割（Semantic Segmentation）：将每个像素标注为某一类别，是一个分类问题。该任务不区分实例，即同一类别的不同实例都标为同一颜色（如下图中的两头牛）；
单目标检测：只识别图像中的一个目标，并标出bounding box，此任务可以理解为分类+定位；
目标检测（Object Detection）：识别图像中的所有目标，并分别标出bounding box；
实例分割（Instance Segmentation）：识别图中所有目标，并标出它们的精确边界。

一、语义分割

滑动窗口？

现在尝试实现语义分割。为了预测某个像素所属的类别，我们可以以这个像素为中心在原图中裁切出一个子图（Patch），并对这个子图进行图像分类（Classification）。我们使用滑动窗口依次对每个像素对应的patch进行分类，最终得到结果。
这样做理论上是可以的，但显然计算量太大，有许多冗余计算——patch间的重合部分的feature map是相同的。

直接上CNN？

我们可以直接串联若干卷积层，输出C个[H x W]的feature map作为结果（C为类别数），第i个feature map代表各像素属于类别i的概率。但这需要需要人工标注大量

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。