图像分割(Image Segmentation)是计算机视觉中的一项基础任务,其目标是将图像划分为若干具有语义一致性或边界明确的区域,也就是说,它要告诉你图像中每一个像素属于哪个物体或类别。
图像分割是比图像分类和物体检测更精细化的视觉理解任务。

图像分割能够细致地标记图像中的每一个区域或物体。它是视觉感知任务中的最高级别形式之一,广泛用于医疗、交通、工业和娱乐等多个领域。随着深度学习特别是 CNN 和 Transformer 模型的发展,图像分割的精度和通用性不断提升,推动着人工智能系统向更高层次的图像理解迈进。
免费分享一套人工智能入门学习资料给大家,如果你想自学,这套资料非常全面!
关注公众号【AI技术星球】发暗号【321C】即可获取!
【人工智能自学路线图(图内推荐资源可点击内附链接直达学习)】
【AI入门必读书籍-花书、西瓜书、动手学深度学习等等...】
【机器学习经典算法视频教程+课件源码、机器学习实战项目】
【深度学习与神经网络入门教程】
【计算机视觉+NLP经典项目实战源码】
【大模型入门自学资料包】
【学术论文写作攻略工具】

一、图像分割 vs 物体检测 vs 图像分类
| 任务 | 输出内容 | 颗粒度 |
|---|---|---|
| 图像分类 | 整张图像属于哪个类别 | 粗略 |
| 物体检测 | 框出物体,并标注类别 | 中等 |
| 图像分割 | 每个像素归属于哪个类别 | 最精细 |
二、图像分割的主要类型
1. 语义分割(Semantic Segmentation)
-
目标:把图像中属于同一类别的像素都分到同一类。
-
特点:不区分同类中不同实例。
-
例子:图中所有“人”被标记为同一种颜色,但不区分每个人。
2. 实例分割(Instance Segmentation)
-
目标:不仅识别类别,还区分不同的实例。
-
特点:每个独立物体都会被标记成不同的区域。
-
例子:图中3个人,会有3个不同的颜色或编号,代表是3个独立个体。
3. 全景分割(Panoptic Segmentation)
-
综合语义分割 + 实例分割,既识别类别,又区分实例,还能处理背景类(如天空、草地等)。
三、常用的图像分割模型
| 模型名称 | 说明 |
|---|---|
| FCN(全卷积网络) | 第一个端到端的语义分割模型 |
| U-Net | 适用于医学图像,具有对称的 U 形结构 |
| SegNet | 用于道路场景识别等 |
| DeepLab 系列(v1-v3+) | 使用空洞卷积,提升精度和分辨率 |
| Mask R-CNN | 在 Faster R-CNN 上加入了分割分支,实现实例分割 |
| SAM(Segment Anything Model) | Meta 发布的通用分割模型,可交互、可零样本迁移 |
四、图像分割的技术核心
-
特征提取:利用 CNN、Transformer 等网络提取图像的多尺度语义特征。
-
上采样(Decoder):将低分辨率的特征图恢复为与原图等大的分割图。
-
多尺度融合:提升模型对不同尺寸目标的识别能力。
五、图像分割的应用场景
-
医学影像分析:分割器官、肿瘤、病变区域
-
自动驾驶:道路、车辆、行人、车道线等区域识别
-
遥感影像:土地分类、建筑物提取、水体识别
-
工业质检:缺陷检测、目标标注
-
增强现实(AR):背景分离、虚拟试妆
673

被折叠的 条评论
为什么被折叠?



