Moonshot AI发布Kimi-VL：仅用3B参数就能媲美大型AI的超级视觉模型

最新推荐文章于 2025-11-09 01:22:16 发布

原创

最新推荐文章于 2025-11-09 01:22:16 发布 · 1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

这项由Moonshot AI团队开发的研究发表于2025年6月，研究成果通过arXiv预印本平台对外公布（论文编号：arXiv:2504.07491v3），有兴趣深入了解的读者可以通过https://github.com/MoonshotAI/Kimi-VL访问完整代码和模型。

当我们谈论AI看图和理解视频的能力时，通常会联想到那些需要庞大计算资源的超级模型。然而，Moonshot AI团队刚刚打破了这个固有印象，他们开发的Kimi-VL模型就像一个聪明的小个子选手，在拳击台上与重量级选手较量时不落下风。这个模型的核心创新在于使用了一种叫做"混合专家"的架构，就好比一个聪明的团队分工合作——每个专家只负责自己最擅长的任务，而不是让一个人包揽所有工作。

更令人惊喜的是，这个看似"小巧"的模型实际上只激活了2.8B个参数（相当于28亿个调节钮），却能在多个复杂任务上与那些参数量几十倍于它的大型模型平分秋色，甚至在某些任务上表现更出色。这就像一辆小排量汽车在油耗、灵活性和性能之间找到了完美平衡点，既不浪费资源，又能胜任各种复杂路况。

Kimi-VL的另一个突破性特点是它能够处理超长内容。传统AI模型在面对长视频或多页文档时往往会"失忆"，就像看电影时不断忘记前面的剧情。而Kimi-VL拥有128K的超长上下文窗口，能够记住并理解长达数小时的视频内容或上百页的文档材料，这种能力在实际应用中具有革命性意义。

研究团队还开发了一个"会思考"的升级版本Kimi-VL-Thinking，这个版本能够像人类一样进行深度推理。当面对复杂问题时，它不会急于给出答案，而是会先在"脑海"中进行一番深思熟虑，梳理思路，然后给出更准确的回答。这种"慢思考"的能力让它在数学推理、科学分析等需要逻辑性的任务上表现尤为出色。

一、视觉智能的新突破：从"笨重"到"精巧"

在人工智能的世界里，视觉理解一直是一个极具挑战性的领域。就像教会一个从未见过世界的人理解图片和视频一样困难，AI模型需要学会识别物体、理解场景、分析关系，甚至进行复杂的推理。传统的解决方案往往采用"暴力美学"——使用数百亿甚至数千亿的参数来建立庞大的模型，就像用推土机来完成精细雕刻的工作。

然而，这种方法面临着显而易见的问题。庞大的模型需要大量的计算资源，就像开着油老虎在城市里穿行一样既不经济也不环保。更重要的是，这些巨型模型在实际部署时面临着种种限制——服务器成本高昂、响应速度缓慢、能耗巨大。这就好比为了运输一个人而出动一架波音747，虽然能完成任务，但显然不是最优解。

Moonshot AI团队意识到了这个问题，他们开始思考：能否像瑞士手表那样，在精巧的结构中实现强大的功能？他们的答案就是Kimi-VL——一个采用混合专家架构的视觉语言模型。这种架构的核心理念就像一个高效的咨询公司，不同的专家负责不同的专业领域，当遇到具体问题时，系统会自动选择最合适的专家来处理，而其他专家则保持"待机"状态。

这种设计带来的好处是显而易见的。首先，它大大提高了效率——相比于让所有"员工"都参与每一个任务，选择性激活专家能够节省大量的计算资源。其次，这种专业化分工让每个专家都能在自己的领域内发挥最大作用，就像让数学老师专心教数学，语文老师专心教语文，而不是让一个老师包教所有科目。

在具体实现上，Kimi-VL包含了三个核心组件：一个名为MoonViT的视觉编码器、一个连接桥梁（MLP投影器），以及一个基于Moonlight的混合专家语言模型。这三个组件的协作就像一个精密的传送带系统——视觉编码器负责"看"，投影器负责"翻译"，语言模型负责"理解"和"表达"。整个过程流畅自然，没有任何环节成为瓶颈。

值得特别提及的是，Kimi-VL在保持小体积的同时，还实现了对超高分辨率图像的原生支持。传统模型在处理高分辨率图像时，通常需要将图像切割成小块分别处理，然后再拼接结果，这个过程就像用放大镜一块一块地看拼图，难免会错过整体信息。而Kimi-VL的MoonViT视觉编码器能够直接处理各种分辨率的图像，保持了视觉信息的完整性和连贯性。

二、训练过程：如何炼成AI"全才"

Kimi-VL的训练过程就像培养一个博学多才的学者，需要经历多个阶段的学习和磨练。研究团队设计了一个精心安排的"课程表"，让模型从基础知识开始，逐步掌握复杂技能，最终成长为能够胜任各种任务的"全才"。

整个训练过程可以比作培养一个从未接触过人类文明的外星人成为地球通。首先是"文本预训练"阶段，就像先教这个外星人学会人类的语言。模型在这个阶段消化了5.2万亿个文本标记（tokens），建立了对人类语言的基本理解。这个阶段至关重要，因为语言能力是后续所有视觉理解任务的基础。

接下来是"视觉训练"阶段，相当于教会外星人如何"看"世界。研究团队使用了2万亿个图像-文本对来训练视觉编码器，让模型学会将看到的图像与相应的文字描述联系起来。这个过程采用了一种叫做CoCa的训练方法，同时使用对比学习和生成学习两种策略。对比学习就像教模型"这是苹果，不是橙子"，而生成学习则是教模型"看到苹果要说'红色的水果'"。

然后是"联合预训练"阶段，这时模型开始真正学会"看懂"世界。研究团队精心调配了文本和多模态数据的