写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除!
前言
在人类探索智能与认知的征途中,神经网络作为连接生物学灵感与计算机科学实践的桥梁,始终扮演着举足轻重的角色。回望历史的长河,神经网络不仅是现代深度学习技术的基石,更是人工智能领域一次深刻而富有启发性的思想革命。经典神经网络的概念最早可追溯至20世纪40年代,尽管早期的尝试受限于计算能力和理论框架的不完善,但这些开创性的工作却为后来的发展奠定了坚实的基础。从感知机到反向传播算法,每一步探索都凝聚着无数研究者的智慧与汗水,它们共同构成了神经网络发展史上不可磨灭的篇章。
在当今这个数据爆炸的时代,深度学习作为神经网络的现代形态,已经广泛应用于图像识别、语音识别、自然语言处理等多个领域,取得了令人瞩目的成就。在神经网络的发展历程中,U-Net无疑是一个经典而重要的模型。不仅在生物医学图像分割领域取得了卓越成就,还为深度学习技术在图像分割任务中的应用开辟了新道路。本文将进一步探讨U-Net背后的技术原理和思想精髓。
论文
论文名: U-Net: Convolutional Networks for Biomedical Image Segmentation
论文速递: 点我转跳哦
代码通道: GitHub
论文内容
U-Net是一种高效的卷积神经网络架构,专为生物医学图像分割任务设计。其核心思想是通过对称的收缩路径(下采样)和扩展路径(上采样),结合跳跃连接(skip connections)融合多尺度特征,实现高精度的像素级定位。U-Net在数据量有限的情况下表现优异,支持弹性数据增强,并采用加权损失函数优化分割边界。
1. 背景与动机
- 传统方法的局限性:滑动窗口策略效率低(逐块处理冗余计算),且无法兼顾局部细节与上下文信息。
- 生物医学分割需求:需要像素级分类,但标注数据稀缺,且需处理大尺寸图像(如电子显微镜图像)。
2. U-Net架构
- 收缩路径(左半部):
重复应用3x3卷积 + ReLU + 2x2最大池化
,每下采样一次,特征通道数翻倍。 - 扩展路径(右半部):
通过上采样 + 2x2转置卷积
恢复分辨率,并与收缩路径对应层的特征图拼接(跳跃连接),再进行两次3x3卷积 + ReLU
。 - 特点:
- 无全连接层,输出为像素级分割图。
- 支持任意尺寸输入(通过重叠-切片策略,镜像填充边界缺失信息)。
- 总计23个卷积层。
3. 训练策略
- 数据增强:
弹性形变(随机位移向量生成平滑形变)、旋转、灰度变化,提升模型对形变的鲁棒性。 - 加权损失函数:
平衡类别频率,并强化分割边界的学习:
w ( x ) = w c ( x ) + w 0 ⋅ exp ( − ( d 1 ( x ) + d 2 ( x ) ) 2 2 σ 2 ) w(\mathbf{x}) = w_c(\mathbf{x}) + w_0 \cdot \exp\left(-\frac{(d_1(\mathbf{x}) + d_2(\mathbf{x}))^2}{2\sigma^2}\right) w(x)=wc(x)+w0⋅exp(−2σ2(d1(x)+d2(x))2)- d 1 , d 2 d_1, d_2 d1,d2:像素到最近两个细胞边界的距离。
- 参数: w 0 = 10 , σ = 5 w_0=10, \sigma=5 w0=10,σ=5。
- 权重初始化:
高斯分布初始化,标准差为 2 / N \sqrt{2/N} 2/N, N N N为输入节点数,确保各层激活值稳定。
4. 实验结果
- EM分割挑战(ISBI 2012):
- ISBI细胞追踪挑战(2015):
5. 优势与结论
- 高效性:训练时间仅10小时(NVIDIA Titan GPU),适用于小数据集。
- 通用性:可扩展至多种生物医学分割任务(神经元结构、细胞追踪等)。
- 开源资源:提供开源代码、预训练模型及数据增强代码。
注:以上内容基于论文《U-Net: Convolutional Networks for Biomedical Image Segmentation》,更多技术细节请参考原文。
可能的创新方面
1. 通道数量
众所周知:
- 收缩路径(编码):
重复应用3x3卷积 + ReLU + 2x2最大池化
,其中的流形可以嵌入到低维子空间中,即在深度卷积层的所有单独的 d d d 通道像素中,其编码的信息实际上存在于一些流形中,并可嵌入到低维子空间中。
下图是嵌入高维空间的低维流形的ReLU变换的例子。初始螺旋被嵌入到N维空间中,使用随机矩阵
T
T
T,然后是
R
e
L
U
ReLU
ReLU,然后使用
T
−
1
T ^{- 1}
T−1投影回二维空间。在
n
=
2
,
3
n = 2,3
n=2,3,会导致流形的某些点相互坍缩而导致信息丢失,对于n = 15到30的变换是高度非凸的。
直观感觉: 输入中的有效信息可以映射到 N N N 维空间。然而激活函数的特性,如ReLU激活函数能够产生稀疏激活性,使得在输入值小于零时神经元会失效。N较小,激活函数会导致丢失较多关于输入的有效信息而难以映射回低维空间;N较大时,即使会导致丢失部分关于输入的有效信息也可以映射回低维空间而不产生太大的差异。类似 N N N通道的特征之间是可以互补,N较大具有更好的互补效果。
因此编码阶段在进行ReLU前,特征具有更多的通道将有利于网络更好的学习,这适用于U-Net吗?。
相反,解码阶段 通过 上采样 + 2x2转置卷积
恢复分辨率,与编码阶段对应层的特征图拼接
,特征通道翻倍将有利于后续的网络学习,这或许是U-Net效果较好的原因。
2. 编解码特征融合方式
- 扩展路径(解码):
解码与编码阶段对应层的特征图拼接进行融合两阶段的特征是U-Net的做法。近年来,逐元素乘积 / 求和
作为一种简单的操作,在各类神经网络中展现出惊人的潜力,不仅能够有效融合不同来源的信息。
特征图拼接未必比逐元素乘积
更好,因为逐元素乘积具有将特征投射到极高维隐式特征空间的能力,可减少激活函数的同时可减少解码的参数量,为设计紧凑和高效网络提供了思路。
基于编码-解码的类U-Net的网络,如何选择特征融合方式?。
总结
总结: U-Net作为一种经典的神经网络模型,在生物医学图像分割领域取得了卓越成就。其对称的编码器-解码器结构、卓越的性能优势以及广泛的实际应用,使得U-Net成为深度学习技术在图像分割领域的重要里程碑。但在实际的类U-Net网络中是否一成不变的沿用其结构,这值得思索,诸如通道数量的调整和特征融合的方式等,往往需要不断的尝试和实验。
互动
-
编码阶段在进行ReLU前,特征具有更多的通道将有利于网络更好的学习,这适用于U-Net吗?。
-
基于编码-解码的类U-Net的网络,如何选择特征融合方式?。
欢迎在评论区解答上述问题,分享你的经验和疑问!
当然,也欢迎一键三连给我鼓励和支持:👍点赞 📁 关注 💬评论。
致谢
欲尽善本文,因所视短浅,怎奈所书皆是瞽言蒭议。行文至此,诚向予助与余者致以谢意。
参考
[1]【U-Net验证】逐元素乘积将特征投射到极高维隐式特征空间的能力
[2] MobileNets发展与总结
[3] 【CVPR_2024】:逐元素乘积为什么会产生如此令人满意的结果?