图像分割与词嵌入技术的前沿探索
一、Mask R - CNN实现实例分割
在图像语义分割问题中,同一类型的所有对象实例在输出图像中显示为相同颜色。而实例分割则不同,即使是同一类型的不同实例,也会被赋予不同颜色。例如,图像中的两只不同猫咪,在输出图像中会呈现两种不同颜色。
实例分割问题是目标检测和语义分割的结合。模型需要先识别单个对象,然后为每个对象确定与之相关的像素。我们可以在Faster R - CNN的基础上解决这个问题,因为Faster R - CNN已经解决了对象定位问题。
Mask R - CNN是对Faster R - CNN模型的扩展,用于实现实例分割任务。其关键在于网络的第三个分支,它与分类分支和边界框细化分支并行运行。这个第三分支以特征图为输入并进行上采样,其输出是像素掩码,用于识别与所识别对象对应的像素。
具体来说,分类分支告诉我们区域提议中是否包含对象,如果包含,该对象属于哪个类别。分割分支为每个对象类别提供一个通道,指示哪些像素属于每个类别。我们只需使用分类分支的输出,从分割分支中选择感兴趣的通道,该通道就代表与检测到的对象相关的像素。如果需要,还可以利用边界框分支在对象周围绘制边界框。
除了分割分支,Mask R - CNN还引入了ROI align层来取代ROI max pooling层。ROI align层在值之间进行插值,而不仅仅是使用最大池化操作,这使其更能保留空间关系,有助于分割分支更好地识别要突出显示的精确像素。
另外,论文中最终的掩码分辨率限制为28×28像素。对于超过该大小的对象,在训练前会对掩码进行缩小。在推理过程中,如果预测的边界框较大,则需要将网络预测的掩码上采样到边界框的
超级会员免费看
订阅专栏 解锁全文
996

被折叠的 条评论
为什么被折叠?



