在深度学习中,“低层特征”与“高分辨率”的关联看似矛盾,但实际上是由卷积神经网络(CNN)的层级结构决定的。以下是详细解释:
1. CNN的层级结构与分辨率变化
CNN的编码器(如U-Net的左侧)通过卷积+池化逐步下采样图像:
-
低层(靠近输入):
例如第一层卷积后的特征图,尺寸接近原始输入(如224×224),包含丰富的细节信息(边缘、纹理)。此时分辨率高,但语义信息简单。 -
高层(靠近输出):
经过多次池化后,特征图尺寸大幅缩小(如28×28),但每个位置的特征向量编码了更抽象的语义信息(如器官形状)。此时分辨率低,但语义信息复杂。
示例:U-Net的编码过程
- 输入:224×224
- 低层特征(第1层):224×224 → 高分辨率,细节丰富
- 中层特征(第3层):56×56 → 中分辨率,中等抽象
- 高层特征(第5层):14×14 → 低分辨率,高度抽象
2. 为什么“低层特征 = 高分辨率”?
-
空间尺寸的物理含义:
- 高分辨率:特征图尺寸大,每个像素对应输入图像的更小区域(细节保留多)。
- 低分辨率:特征图尺寸小,每个像素对应输入图像的更大区域(信息被压缩)。
-
信息类型的变化:
- 低层特征:捕捉局部细节(如器官边缘、血管纹理)。
- 高层特征:捕捉全局结构(如整个器官的形状、位置关系)。
类比:地图的缩放级别
- 高分辨率地图(放大):显示街道、建筑物细节(类似低层特征)。
- 低分辨率地图(缩小):显示城市整体布局(类似高层特征)。
3. TransUNet中的关键设计
TransUNet通过**跳跃连接(Skip Connections)**将低层的高分辨率特征与高层特征结合:
- 编码阶段:CNN提取低层细节(高分辨率)+ Transformer建模全局上下文(低分辨率)。
- 解码阶段:将Transformer的低分辨率特征上采样,并与CNN的低层特征融合,恢复细节(如器官边界)。
为何需要低层的高分辨率特征?
直接上采样高层特征(如14×14 → 224×224)会丢失细节,导致分割边界模糊。而融合低层的高分辨率特征(如56×56)可补充局部信息,提升分割精度。
4. 总结
- 低层特征:靠近输入,分辨率高,保留细节(如纹理、边缘)。
- 高层特征:靠近输出,分辨率低,语义抽象(如器官形状)。
- 两者互补:TransUNet通过融合两者,实现全局上下文建模(Transformer)与局部细节恢复(CNN跳跃连接)的平衡。
这种设计解决了纯Transformer缺乏低层次细节的问题,同时克服了传统U-Net难以建模长距离依赖的局限性。