语义分割:逐像素分类
1. 语义分割概述
语义分割常用于回答类似“这张图片里猫在哪里”的问题。与传统的分类模型不同,分类模型只能告诉我们图片中是否存在猫,而语义分割能精确指出猫所在的位置,即“这个像素属于猫,那个像素属于墙”。
传统的图像分类模型可看作是漏斗或放大镜,将大量像素聚焦为一个“点”(即一组类别预测),给出“图片里有猫”或“没有猫”这样的答案。而语义分割需要输出类似图像的结果,仅得到像分类模型那样的二进制标志列表是行不通的。
卷积和下采样层的重复使用,使得模型从处理原始像素开始,逐步构建出针对纹理、颜色等的特定检测器,最终形成对“猫”或“狗”等高级概念的特征检测。但由于下采样会缩小输出尺寸,增加卷积层的感受野,导致丢失空间信息,难以直接用于语义分割。
2. 感受野与模型架构
下采样是增加卷积层感受野的关键,但会减少图像像素数量。例如,在一个由两个 3×3 卷积和一个最大池化组成的 LunaModel 块中,最终像素的感受野为 6×6。
如果想要输出与输入大小相同的图像,简单的堆叠卷积层而不进行下采样可以实现输出大小与输入相同,但感受野会非常有限。假设使用 3×3 卷积,简单堆叠卷积层的感受野大小为 2 * L + 1(L 为卷积层的数量)。例如,四层 3×3 卷积的每个输出像素的感受野为 9×9。通过在卷积层中插入最大池化层可以增加感受野,如在第二层和第三层卷积之间以及末尾插入 2×2 最大池化层,可将感受野增加到 16×16。
为了在保持输入输出像素 1:1 比例的同时提高输出像素的感受野,可以使用上采样技术。上采样是将给定分辨率的图像转换为更高分辨率的图像,最简单的方法是将每个像素替
超级会员免费看
订阅专栏 解锁全文
9005

被折叠的 条评论
为什么被折叠?



