
- 标题:RefAM: Attention Magnets for Zero-Shot Referral Segmentation
- 工程主页:https://refam-diffusion.github.io/
- 代码即将开源
- 论文下载地址:https://arxiv.org/pdf/2509.22650
在计算机视觉领域,零样本指代分割(Zero-Shot Referral Segmentation)一直是个棘手问题,它要求模型根据自然语言描述,在从未见过的类别图像或视频中精准定位目标区域。传统方法要么依赖复杂微调,要么需要组合多个预训练模型,不仅效率低,泛化性也受限。
而最近发表的REFAM(Attention Magnets for Zero-Shot Referral Segmentation)论文,给出了一种颠覆性思路:直接利用扩散Transformer(DiT)的交叉注意力特征,无需任何架构修改或额外训练,就在图像和视频指代分割任务上刷新了SOTA。
一、核心痛点:扩散模型的注意力“乱象”
在聊REFAM之前,我们得先明白一个关键现象:扩散模型(尤其是DiT)虽然蕴含丰富的语义信息,但它的注意力分布并不“听话”,存在两大问题:
1. 全局注意力 sink(Global Attention Sinks, GAS)
论文发现,DiT的深层网络中会出现一类特殊token,它们会均匀吸引几乎所有文本和图像token的注意力,但自身却不含任何有用语义。比如下图中,token #1(“a”)和token #16(结束符)就是典型的GAS,它们像“黑洞”一样吸收注意力,反而压制了有意义token的信号。

2. 停用词的局部干扰
除了GAS,普通停用词(如“with”“the”)也会成为“局部注意力磁铁”,将注意力导向背景区域。比如描述“a white cow with brown patches”时,“with”会吸引大量背景注意力,导致生成的热力图模糊,难以定位“brown patches”。
传统方法要么忽略这些问题,要么通过复杂后处理修正,而REFAM的核心创新在于:不消除这些“麻烦”,而是把它们变成助力,通过停用词增强和注意力重分配,让无用注意力“有处可去”,从而凸显目标区域。
二、REFAM的三大核心原理
REFAM的全称是“Attention Magnets for Zero-Shot Referral Segmentation”,顾名思义,“注意力磁铁”是其核心设计。整个方法基于三个关键发现和技术:
1. 从DiT中提取高质量交叉注意力特征
首先,REFAM选择从整流流扩散Transformer(Rectified-Flow DiT) 中提取特征,而非传统的U-Net。原因很简单:DiT的文本-图像交叉注意力图(Cross-Attention Maps)天然蕴含空间-语义对齐信息,非常适合指代分割。
扩散模型特征提取细节
整流流模型的前向过程会将干净 latent (X_0) 扰动为带噪声的 (X_t),公式如下:
DiT的训练目标是预测噪声 (\epsilon),但论文发现,其中间层的交叉注意力图能捕捉到文本描述与图像区域的对应关系。比如描述“brown patches”时,对应token的注意力图会逐渐聚焦到牛身上的棕色斑块(如下图)。

关键操作:双分支特征收集
REFAM采用两个并行分支:
- 去噪分支:用原始prompt或空prompt引导DiT去噪,不干预模型正常流程;
- 特征分支:单独用指代表达式(Referring Expression)编码文本token,从DiT的多层多头注意力中提取交叉注意力图,全程不影响去噪轨迹。
这种设计既保留了扩散模型的语义捕捉能力,又能精准对齐文本描述与图像区域。
2. 识别并过滤GAS:排除无意义干扰
既然GAS不含语义信息,且会压制有用信号,REFAM的第一步就是“清除”它们。具体做法分两步:
(1)GAS检测
论文定义了一个简单但有效的GAS判定标准:计算每个token在所有层、所有头的文本-文本注意力均值,如果该均值是所有token均值的10倍以上,就判定为GAS。实验发现,每个序列通常只会出现1-3个GAS,且多为停用词或特殊符号(如结束符</s>)。
(2)GAS过滤
直接将GAS对应的注意力图从聚合过程中移除。实验证明,过滤GAS不仅不会损失性能,反而能让注意力重分配到有意义token上,比如颜色token(“red”“brown”)原本被GAS压制,过滤后能重新聚焦到目标颜色区域。
3. 注意力重分配:用“磁铁”吸收背景噪声
这是REFAM最精妙的设计:主动添加停用词作为“注意力磁铁”,吸收背景注意力,让目标区域更清晰。
核心逻辑
停用词在预训练中频繁出现,模型已形成“将无关注意力导向停用词”的习惯。REFAM利用这一点,通过两个步骤实现注意力重分配:
- 停用词增强(Stop-Word Augmentation):在原始指代表达式后追加额外停用词,如“ ”(空格)、“with”“to”,以及一个辅助颜色词“pink”(用于吸收颜色相关GAS)。例如,“a white cow with brown patches”会被扩展为“a white cow with brown patches . with to pink”。
- 注意力过滤与聚合:先过滤掉所有停用词(包括原始和追加的)对应的注意力图,再对剩余token的注意力图取平均,得到最终热力图 (H_e),公式如下:
其中 是扩展后的表达式, 是预定义停用词集合(包括NLTK停用词和符号“.”“,”等)。
为什么这招有效?
- 背景分割:追加的停用词会将大面积背景注意力分割成多个小簇,每个簇被一个“磁铁”吸收,过滤后背景噪声大幅减少;
- 颜色GAS引导:辅助颜色词“pink”能将原本落在目标颜色token(如“brown”)上的GAS注意力吸引过来,恢复目标颜色的判别性;
- 无训练成本:完全依赖模型预训练学到的停用词注意力模式,无需任何微调。
下图清晰展示了效果:添加注意力磁铁后,热力图能精准聚焦到目标(如“horse jumping over obstacles”),而无磁铁时热力图模糊,甚至定位错误。

三、完整流程:从注意力图到分割掩码
REFAM的端到端流程非常简洁,无需复杂组件,核心分四步(见下图):

步骤1:特征提取
- 图像/视频输入:对图像用FLUX模型,对视频用Mochi模型;
- 交叉注意力图收集:从DiT的多层多头注意力中,提取文本token与图像patch的交叉注意力图 ;
- 时间步选择:图像任务选择时间步750,视频任务选择时间步990(实验验证这两个时间步的语义信息最丰富)。
步骤2:注意力处理
- GAS过滤:移除判定为GAS的token对应的 ;
- 停用词过滤:移除原始和追加停用词对应的 ;
- 热力图聚合:对剩余 取平均,得到目标热力图 。
步骤3:目标定位
计算热力图的最大值点 ,这个点就是文本描述对应的目标中心。
步骤4:分割掩码生成
将 作为prompt输入SAM(图像)或SAM2(视频),生成最终的分割掩码。视频任务中,还会用SAM2的时序传播能力,将第一帧的分割结果扩展到整个视频序列。
四、实验
REFAM在图像和视频指代分割的多个权威数据集上进行了测试,结果全面超越现有无训练方法,部分指标甚至接近有监督方法。
1. 图像指代分割(RIOS)
在RefCOCO、RefCOCO+、RefCOCOg三个数据集上,REFAM以显著优势超越HybridGL、Ref-Diff等SOTA方法:

- RefCOCOg测试集:mIoU达到48.35,比HybridGL高2.5个点;
- RefCOCO+ testA:mIoU比Ref-Diff高9个点,比Global-Local高12个点;
- 即使不使用任何额外训练数据,REFAM的性能仍接近弱监督方法(如PPT)。
2. 视频指代分割(RVOS)
在Ref-DAVIS17、Ref-YouTube-VOS、MeViS三个数据集上,REFAM同样表现突出:

- Ref-DAVIS17:J&F达到57.6,比G-L + SAM2高11个点;
- Ref-YouTube-VOS:J&F达到42.7,比AL-Ref-SAM2高4.8个点;
- MeViS:J&F达到30.6,是目前无训练方法中的最高值。
3.可视化结果

五、总结
REFAM的成功,本质上是对扩散模型注意力机制的深刻理解和巧妙利用:它没有试图“修复”GAS和停用词的注意力乱象,而是将其转化为“注意力磁铁”,通过重分配让有用信号凸显。这种“顺势而为”的设计,不仅实现了无训练的零样本分割,还为扩散模型在下游任务中的应用提供了新思路,扩散模型的注意力图,或许是比U-Net特征更强大的语义对齐工具。
如何学习大模型 AI ?
我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

2025最新大模型学习路线
明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。
大模型经典PDF书籍
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

配套大模型项目实战
所有视频教程所涉及的实战项目和项目源码等

博主介绍+AI项目案例集锦
MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。


这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

为什么要学习大模型?
2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

适合人群
- 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
- IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
- IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
- 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。

课程精彩瞬间
大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。
RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。
Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。
顶尖师资,深耕AI大模型前沿技术
实战专家亲授,让你少走弯路

一对一学习规划,职业生涯指导
- 真实商业项目实训
- 大厂绿色直通车
人才库优秀学员参与真实商业项目实训
以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调
大厂绿色直通车,冲击行业高薪岗位
文中涉及到的完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】








被折叠的 条评论
为什么被折叠?



