深度学习-UNet语义分割二分类与多分类的对比

原创已于 2023-06-16 16:44:02 修改

· 1.2k 阅读

2 ·

版权

文章标签：

#深度学习 #分类 #人工智能

于 2023-06-16 16:03:35 首次发布

文章介绍了图像语义分割的任务，它是计算机视觉中将每个像素分配到对应类别的一种技术，常用于自动驾驶和图像识别等领域。重点讨论了UNet网络结构，这是一个用于语义分割的深度神经网络模型，由编码器和解码器组成，能有效地进行特征提取和图像恢复。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由于平台审核问题，请移步,后期将脱离此平台
深度学习-UNet语义分割二分类与多分类的对比 - 知乎摘要：前面我们一起聊了下图片的多分类，简单应用包括汉字识别、目标识别、目标检测等等，今天我们来看下图像语义分割任务是做什么的，同样的，今天还是分享构建的思路以及遇到的一些问题。语义分割是计算机视觉…https://zhuanlan.zhihu.com/p/637600789

摘要：前面我们一起聊了下图片的多分类，简单应用包括汉字识别、目标识别、目标检测等等，今天我们来看下图像语义分割任务是做什么的，同样的，今天还是分享构建的思路以及遇到的一些问题。

语义分割是计算机视觉领域中的一项任务，旨在将图像中的每个像素分配到其对应的语义类别中。与传统的图像分割不同，语义分割不仅分割出图像中的不同区域，还能够根据物体类别进行区分，从而实现对图像的更深入理解和表述。语义分割技术常用于自动驾驶、图像搜索、人脸识别等领域，具有广泛的应用前景。

举个例子

在这张图片中，包含了许多信息，很多定义，有飞机、机箱道路、天空等等一系列的事物，那么这些定义的事物就是这些图片的语义，那么，今天我们就需要把图片中的这些定义划分出对应的区域出来。那么首先我们需要标记这里的飞机，像这样做。

在这里，我们只需要将飞机标记出来，其他区域位置为背景，背景色为黑色，飞机为红色，这样的话，就将原图的色彩表示出来了。下次，网络就能够学习到哪个是飞机？哪个不是飞机了。

如果要实现这样的功能，今天给大家分享一个网络结构，U-Net网络结构它是一种用于语义分割的深度神经网络模型，最初由德国图像实验室（Image Processing Lab，IPL）的研究人员发明。U-Net的基本结构是一个U形网络，其中包含编码器（downsampling path）和解码器（upsampling path）两部分，具有对称结构。编码器用于提取输入图像的特征信息，通过多个卷积层和池化层将输入图像逐步缩小，得到一个语义表达。解码器则将此语义表达映射回原始图像大小，通过多个反卷积和上采样层恢复分辨率，并将特征与对应的编码器层的特征进行融合，从而还原输出目标的位置、形状和语义信息。此外，U-Net在训练时采用了数据增强、损失函数以及可调节参数等方法进行优化，提高了模型的鲁棒性和泛化能力，成为了语义分割领域中的经典模型之一。