UNTER++模型简介

部署运行你感兴趣的模型镜像

简介

        UNTER++ 是一种基于深度学习的自然语言处理(NLP)模型,专注于文本生成、摘要和对话系统任务。其核心架构结合了Transformer的变体,通过多任务学习优化生成质量与效率。

        其网络结构如下图所示:

改进点

        与UNETR网络相比最核心的改进点是用 EPA 替代原始 Self-Attention

对比项UNETRUNETR++
注意力机制标准 ViT 中的 vanilla self-attentionEPA 模块:联合建模空间 + 通道注意力,线性复杂度
是否共享 Q/K否(Q, K, V 独立)是(空间和通道分支共享 Q 和 K 投影权重)
建模维度仅空间依赖空间 + 通道联合依赖
参数量高(每层 3 个投影矩阵)低(共享 Q/K,仅 2 个 V 投影 + 卷积)

        原始 UNETR 使用标准的 Vision Transformer(ViT)编码器,其中每个 Transformer 块包含自注意力(Self-Attention)和 MLP。这种设计在医学图像分割中计算开销大,且对局部-全局依赖建模不够高效。

EPA 的设计在保持甚至提升分割性能的同时,显著降低参数量和 FLOPs:

(1)将自注意力分解为 通道注意力 和 空间注意力 两个并行分支(即“paired”)。

(2)每个分支只关注一个维度(通道或空间),大幅减少计算量。

(3)通过轻量级交互机制融合两个分支的信息。

        关于UNETR网络的讲解请看博主的这篇文章:

https://blog.youkuaiyun.com/qq_73038863/article/details/153681353?fromshare=blogdetail&sharetype=blogdetail&sharerId=153681353&sharerefer=PC&sharesource=qq_73038863&sharefrom=from_link

网络结构层次化(Hierarchical Design)

对比项UNETRUNETR++
特征分辨率固定 patch 序列(如 16×16×8 → 所有层 token 数相同)多尺度金字塔结构(类似 Swin):
Stage 1: H/4×W/4×D/2 → Stage 2: H/8×... → Stage 4: H/32×...
下采样方式无显式下采样(靠 patch embedding 一次性降维)使用 stride=2 的 3D 卷积进行逐级下采样
跳跃连接对齐特征图尺寸固定,跳跃连接简单拼接需要对不同尺度特征进行上采样/融合,更符合 U-Net 原始思想

您可能感兴趣的与本文相关的镜像

Qwen3-8B

Qwen3-8B

文本生成
Qwen3

Qwen3 是 Qwen 系列中的最新一代大型语言模型,提供了一整套密集型和专家混合(MoE)模型。基于广泛的训练,Qwen3 在推理、指令执行、代理能力和多语言支持方面取得了突破性进展

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值