计算机视觉中的图像分割、生成技术全解析
1. 图像分割简介
图像分割是为图像的每个像素分配一个类别标签(如人、自行车或动物)的过程。可以将其视为像素级的分类,与将整个图像归为一个标签不同,我们会分别对每个像素进行分类。图像分割操作的输出被称为分割掩码,它是一个与原始输入图像尺寸相同的张量,但每个像素由其所属的对象类别表示,而非颜色。
图像分割主要分为两种类型:
- 语义分割 :为每个像素分配一个类别,但不区分对象实例。例如,在某些语义分割掩码中,每辆单独车辆的像素具有相同的值,它能告诉我们某个像素属于车辆,但无法区分两辆不同的车辆。
- 实例分割 :为每个像素分配一个类别,并区分对象实例。例如,在实例分割掩码中,每辆车都被分割为一个单独的对象。
训练分割算法需要一种特殊的真实数据,其中每个图像的标签是该图像的分割版本。最简单的图像分割方法是使用滑动窗口技术,即使用常规分类器,以步长为 1 向任一方向滑动。在获得某个位置的预测后,取输入区域中间的像素,并将其分配到预测的类别。但由于图像中的像素数量众多,这种方法非常慢。幸运的是,有更快、更准确的算法,下面将详细介绍。
2. 使用 U - Net 进行语义分割
U - Net 是一种全卷积网络(FCN),因其仅包含卷积层,且输出端不使用全连接层而得名。FCN 将整个图像作为输入,并在一次传递中输出其分割图。
U - Net 模型可分为两个虚拟组件:
- 编码器 :网络的第一部分(U 的左半部分)类似于常规的卷积神经网络(CNN),
超级会员免费看
订阅专栏 解锁全文
1363

被折叠的 条评论
为什么被折叠?



