16、计算机视觉:图像分割、生成与扩散模型全解析

计算机视觉:图像分割、生成与扩散模型全解析

1. 图像分割简介

图像分割是为图像的每个像素分配一个类别标签(如人、自行车或动物)的过程。可以将其视为像素级的分类,与将整个图像归为一个标签不同,我们会分别对每个像素进行分类。图像分割操作的输出称为分割掩码,它是一个与原始输入图像维度相同的张量,但每个像素由其所属的对象类别表示,而非颜色。

图像分割主要分为两种类型:
- 语义分割 :为每个像素分配一个类别,但不区分对象实例。例如,在语义分割掩码中,每辆单独车辆的像素具有相同的值,它能告诉我们某个像素属于车辆,但无法区分两辆不同的车辆。
- 实例分割 :为每个像素分配一个类别,并区分对象实例。例如,在实例分割掩码中,每辆车都被分割为一个单独的对象。

训练分割算法需要一种特殊类型的真实数据,其中每个图像的标签是该图像的分割版本。最简单的图像分割方法是使用滑动窗口技术,即使用常规分类器,以步长为 1 向任一方向滑动。得到某个位置的预测结果后,将输入区域中间的像素分配给预测的类别。但由于图像中的像素数量庞大,这种方法非常慢。幸运的是,有更快、更准确的算法,下面将详细介绍。

2. U - Net 语义分割

U - Net 是一种全卷积网络(FCN),因其仅包含卷积层,输出端不使用全连接层而得名。FCN 将整个图像作为输入,并在一次传递中输出其分割图。

U - Net 模型可分为两个虚拟组件:
- 编码器 :网络的第一部分(U 的左半部分)类似于常规的卷积神经网络(CNN),但末端没有全连接

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值