深度学习语义分割技术解析
1. 无监督和弱监督学习
在深度学习中,自动编码器和受限玻尔兹曼机是处理无监督问题最常用的方法。自动编码器用于图像编码,受限玻尔兹曼机用于图像或像素的聚类。由于语义分割的主要问题是缺乏像素级标注,因此完全自动的无监督图像分割将非常有帮助。
1.1 W - net模型
W - net是一种卷积自动编码器网络,其编码器和解码器均为U - net结构。编码器的输出是一个掩码,该掩码经过条件随机场和层次聚类处理后得到最终的分割图像。解码器以该掩码为输入,输出尽可能接近编码器输入的图像。损失函数是重建损失(自动编码器常用)和应用于掩码的软切割损失的组合。
1.2 ReDO模型
ReDO模型是一种基于生成方法的无监督模型。它首先识别图像分区,然后分别生成每个分区的内容,最后将它们融合以创建与输入相似的生成图像。这种方法的优点是可以识别每个分区的分布。
1.3 半监督学习方法
半监督学习方法将强标签学习(使用像素级标注图像)和弱标签学习(使用图像级标签)以各种方式结合起来。由于可用标注数据的限制,无监督和半监督方法在语义分割中越来越受到关注。
2. 模型改进
2.1 块级增强
2.1.1 特征提取结构
在语义分割中,各尺度的特征提取由神经层子结构完成。目前的先进方法依赖于具有增强通信能力的层结构,如残差块及其变体。基本思想是通过逐步的数据变换,即$y = x + f (x; θ)$,其中$f$是由几个卷积层执行的非线性变换,通常为三个具有数百个卷积核的卷积层。通过级联这些残差层构建非常深
超级会员免费看
订阅专栏 解锁全文
660

被折叠的 条评论
为什么被折叠?



