图像分割是计算机视觉领域的核心任务之一,旨在将图像划分为具有语义或结构意义的区域。其发展历程经历了从传统方法到深度学习的革命性变革,以下是关键阶段的梳理:
1. 传统方法时代(2000年以前)
-
阈值分割:基于像素灰度值的简单分割(如Otsu算法)。
-
边缘检测:利用梯度信息检测边界(如Canny算子、Sobel算子)。
-
区域生长与分水岭算法:基于像素相似性或拓扑结构的分割,但对噪声敏感。
-
基于图模型的方法:
-
GraphCut(2001):将分割转化为能量最小化问题,结合颜色和边界信息。
-
GrabCut(2004):交互式改进GraphCut,减少用户输入需求。
-
2. 特征工程与机器学习结合(2000-2012)
-
纹理与特征描述子:使用SIFT、HOG等特征结合分类器(如SVM)进行分割。
-
条件随机场(CRF):建模像素间上下文关系,提升分割连贯性(常与GraphCut结合)。
3. 深度学习革命(2012年后)
里程碑模型
-
FCN(全卷积网络,2015):
-
首次将CNN全连接层替换为卷积层,实现端到端像素级预测。
-
支持任意尺寸输入,但输出分辨率较低(上采样粗糙)。
-
-
U-Net(2015):
-
医学图像分割标杆,对称编码器-解码器结构,通过跳跃连接融合深浅层特征。
-
在小样本场景中表现优异。
-
-
DeepLab系列:
-
DeepLab v1/v2(2015-2017):引入空洞卷积(Atrous Conv)扩大感受野,避免下采样信息丢失。
-
DeepLab v3+(2018):结合编码器-解码器和空洞空间金字塔池化(ASPP),提升多尺度分割能力。
-
-
Mask R-CNN(2017):
-
扩展Faster R-CNN,增加分割分支,实现检测与分割一体化(实例分割)。
-
技术演进关键点
-
多尺度处理:通过金字塔结构(如PSPNet、ASPP)捕捉不同尺度目标。
-
注意力机制:如Non-local Networks(2018)、CBAM(2018),增强重要区域权重。
-
Transformer的引入:
-
ViT(2020):将图像分块输入Transformer,展现全局建模潜力。
-
Swin Transformer(2021):分层窗口机制,高效处理高分辨率图像。
-
Segment Anything(SAM,2023):通用分割模型,支持零样本和交互式分割。
-
4. 当前趋势与挑战(2020s)
-
通用分割模型:如SAM(Meta),通过提示(prompt)实现零样本分割。
-
3D与视频分割:扩展至点云(如PointNet++)和时序数据(如MaskTrack)。
-
轻量化与实时性:适用于移动端的模型(如BiSeNet)。
-
弱监督/无监督学习:减少对昂贵标注数据的依赖(如对比学习、自监督方法)。
-
医学与遥感等垂直领域:针对特定场景的优化(如nnUNet)。
总结
图像分割从手工特征到深度学习,逐步解决了精度、效率和通用性等核心问题。未来方向可能集中在:
-
多模态融合(结合文本、深度等信息)。
-
可解释性与鲁棒性(对抗攻击、领域适应)。
-
与生成模型结合(如扩散模型用于分割)。
这一领域的进步持续推动着自动驾驶、医疗影像、AR/VR等应用的发展。