《MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding》
(MODA)这篇论文的全文(包含 PDF / OpenReview / 代码仓库),下面把论文的方法、核心原理、优点/局限、以及可复现/改进建议做成一份结构化的分析给你。为方便后续引用,我在关键论断后给出来源链接。
1) 论文要点速览
- 论文指出当前多模态注意力存在一个他们称为 “attention deficit disorder” 的问题:跨模态注意力不一致、随着层数逐层衰减的注意力激活,会导致高层语义理解(尤其是认知/情感类任务)出现信息对齐与聚合不足,从而产生错误或幻觉答案。(开放评论)
- 为了解决它,作者提出 MODA(Modular Duplex Attention):在单个注意力模块内同时完成 内模态(inner-modal)精炼 与 模态间(inter-modal)交互;并引入 “correct-after-align” 策略来把模态对齐与跨层 token 混合解耦。论文在 21 个任务/基准上做了大量实证验证并开源代码。(开放评论, GitHub)
2) 核心思想与结构(原理层面)
下面把 MODA 的关键构件和工作流程用尽量直观的方式拆开说明。
a. 问题诊断:注意力不足(attention deficit disorder)
- 作者通过可视化不同层的 attention map,观察到跨模态 attention 得分在层间非常不稳定且在更高层衰减,导致语言与视觉 token 在高阶推理时无法可靠“对齐”。这被归结为两方面:错误的跨模态对齐和层间 token 混合策略(layer-by-layer mixing)把对齐信息稀释掉。(

最低0.47元/天 解锁文章
1047

被折叠的 条评论
为什么被折叠?



