计算机视觉:图像分割、生成与扩散模型全解析
1. 图像分割简介
图像分割是为图像的每个像素分配一个类别标签(如人、自行车或动物)的过程。可以将其视为像素级的分类,与将整个图像归为一个标签不同,我们会分别对每个像素进行分类。图像分割操作的输出称为分割掩码,它是一个与原始输入图像维度相同的张量,但每个像素由其所属的对象类别表示,而非颜色。
图像分割主要分为两种类型:
- 语义分割 :为每个像素分配一个类别,但不区分对象实例。例如,在语义分割掩码中,每辆单独车辆的像素具有相同的值,它能告诉我们某个像素属于车辆,但无法区分两辆不同的车辆。
- 实例分割 :为每个像素分配一个类别,并区分对象实例。例如,在实例分割掩码中,每辆车都被分割为一个单独的对象。
训练分割算法需要一种特殊类型的真实数据,其中每个图像的标签是该图像的分割版本。最简单的图像分割方法是使用滑动窗口技术,即使用常规分类器,以步长为 1 向任一方向滑动。得到某个位置的预测结果后,将输入区域中间的像素分配给预测的类别。但由于图像中的像素数量庞大,这种方法非常慢。幸运的是,有更快、更准确的算法,下面将详细介绍。
2. U - Net 语义分割
U - Net 是一种全卷积网络(FCN),因其仅包含卷积层,输出端不使用全连接层而得名。FCN 将整个图像作为输入,并在一次传递中输出其分割图。
U - Net 模型可分为两个虚拟组件:
- 编码器 :网络的第一部分(U 的左半部分)类似于常规的卷积神经网络(CNN),但末端没有全连接
超级会员免费看
订阅专栏 解锁全文
1092

被折叠的 条评论
为什么被折叠?



