这项由北京大学的刘正、刘梦洁、陈景舟等研究者与上海AI实验室、南京大学合作完成的研究发表于2025年4月,论文标题为《FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding》。感兴趣的读者可以通过论文的GitHub页面(https://github.com/starriver030515/FUSION)获取代码、模型权重和数据集的完整信息。
近年来,人工智能在理解图像和文字方面取得了惊人进展,但一个关键问题始终困扰着研究者:如何让AI真正像人类一样同时理解视觉和语言信息?就像我们看到一张照片时,不仅能识别其中的物体,还能理解文字描述并进行深度思考一样。传统的多模态大语言模型就像是两个分别精通视觉和语言的专家在各自工作后才碰面交流,而人类的认知过程却是视觉和语言从一开始就紧密交织在一起的。
研究团队深受人类视觉感知机制的启发。科学研究表明,人类的视觉感知并非像相机那样被动地捕捉现实,而是一个受到语言和环境背景影响的主动解释过程。有趣的是,当人们在寻找某个特定物体之前先听到它的名字时,无论是发现速度还是准确率都会显著提升。这说明语言信息能够帮助大脑优先处理相关特征,指导视觉注意力的分配。
然而,目前的多模态大语言模型往往无法有效捕捉这种深度交互关系。传统模型通常是先用独立的视觉编码器处理图像信息,然后在语言模型解码阶段才将视觉特征作为静态信息融入。这种分离式处理方式导致视觉特征缺乏集中式编码,限制了与文本交互时可用的有效信息。即使一些最新研究通过动态分辨率编码或多重视觉编码器来增强图像细节和表示丰富度,但这些改进主要集中在增强视觉编码本身,忽略了实现有效视觉-语言融合所必需的深层双向交互。
针对这些挑战,研究团队提出了FUSION模型,这是一个实现视觉-语言表示完全整合的多模态大语言模型家族。FUSION的核心理念是在整个处理管道中实现深度、动态的交互,而不是仅仅在后期解码阶段进行表面融合。
一、文本引导的统一视觉编码:让文字为图像导航
FUSION的第一个创新是"文本引导的统一视觉编码"技术。传统模型

最低0.47元/天 解锁文章
887

被折叠的 条评论
为什么被折叠?



