香港科技大学团队突破性发现:AI视觉模型也能像人一样推理数学题!

这项由香港科技大学的张景涵、何俊贤教授,联合香港城市大学的陈诗淇、新加坡国立大学的朱同耀、熊淼,以及西北大学的李曼玲等研究者共同完成的突破性研究,于2025年5月发表在第41届机器学习国际会议(ICML 2025)上。有兴趣深入了解的读者可以通过论文代码库 https://github.com/shiqichen17/VLM_Merging 访问完整研究内容。

这项研究解决了一个困扰AI领域已久的问题:为什么那些能"看懂"图片又能"理解"文字的AI模型,在处理数学推理题时表现却差强人意?就像一个学生虽然能看懂题目中的图表,也认识所有的文字,但就是不会做数学题一样。研究团队发现了一个巧妙的解决方案——通过"模型融合"技术,把专门擅长数学推理的语言模型的"数学天赋"移植到视觉语言模型中,让它们既保持原有的"视觉理解"能力,又获得强大的"数学推理"能力。

这个发现的意义不仅在于技术突破,更在于它为我们理解AI的内在工作机制打开了一扇新窗户。研究团队通过深入分析发现,AI模型就像人的大脑一样,不同的"技能"存储在不同的"区域"——视觉感知能力主要集中在神经网络的前层,而数学推理能力则藏在中后层。这一发现不仅帮助我们更好地理解AI的工作原理,也为未来设计更强大的AI系统提供了重要指导。

一、AI的"偏科"难题:看得懂却算不对

当前的视觉语言模型就像一个聪明但"偏科"的学生。它们在处理日常的视觉问答任务时表现出色,能够准确识别图片中的物体、理解场景内容,甚至回答关于图片的复杂问题。然而,一旦遇到需要数学推理的视觉问题,比如分析图表中的数据趋势、计算几何图形的面积,或者解决包含图像的数学应用题,这些模型就开始"掉链子"了。

这种现象的根本原因在于训练数据的稀缺性。相比于纯文本的数学推理数据,包含视觉元素的数学推理数据极其有限。这就像让一个只在室内练习过的篮球运动员突然到户外比赛,环境的变化让原本熟练的技能变得生疏。更进一步说,即使有足够的多模态数学数据,从零开始训练一个既能"看"又能"算"的模型,所需的计算资源和时间成本也是天文数字。

与此形成鲜明对比的是,纯文本的大语言模型在数学推理方面已经取得了令人瞩目的进展。这些模型能够处理复杂的数学证明、解决多步骤的代数问题,甚至进行高级

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值