阿里国际开源Ovis2多模态新王炸！DeepSeek开源首个代码库FlashMLA！

最新推荐文章于 2025-06-02 16:08:05 发布

快乐小码农

最新推荐文章于 2025-06-02 16:08:05 发布

阅读量512

点赞数 4

分类专栏：开源大模型多模态大模型文章标签： DeepSeek 开源大模型代码库人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u012744245/article/details/145854909

版权

开源大模型同时被 2 个专栏收录

57 篇文章

订阅专栏

多模态大模型

35 篇文章

订阅专栏

01 阿里国际开源Ovis2系列多模态模型，6大模型尺寸通吃视频理解

2025 年 2 月 21 日，阿里巴巴国际团队开源新型多模态大语言模型 Ovis2 系列。

相比其前身 Ovis 系列，Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度，还通过指令微调和偏好学习大幅提升了思维链（CoT）推理能力，使其在数学推理和视频理解任务中表现尤为突出。

此外，Ovis2 引入了视频和多图像处理能力，并增强了多语言能力和复杂场景下的OCR能力，显著提升了模型的实用性。

Ovis2-34B 在权威评测榜单 OpenCompass 上展现出了卓越的性能。
在多模态通用能力榜单上，Ovis2-34B 位列所有开源模型第二，以不到一半的参数尺寸超过了诸多70B开源旗舰模型。
在多模态数学推理榜单上，Ovis2-34B 更是位列所有开源模型第一，其他尺寸版本也展现出出色的推理能力。

这些成绩不仅证明了 Ovis 架构的有效性，也展示了开源社区在推动多模态大模型发展方面的巨大潜力。

此次开源的 Ovis2 系列包括 1B、2B、4B、8B、16B 和 34B 六种不同参数规模的模型版本，以满足多样化需求。各个参数版本均达到了同尺寸的SOTA（State of the Art）水平。

Ovis2 的架构设计巧妙地解决了模态间嵌入策略差异这一局限性。它由视觉tokenizer、视觉嵌入表和LLM三个关键组件构成。

在训练策略上，Ovis2 采用了四阶段训练方法，以充分激发其多模态理解能力。

冻结 LLM，训练视觉模块，学习视觉特征到嵌入的转化。
增强高分辨率图像理解和多语言 OCR 能力。
使视觉嵌入对齐 LLM 的对话格式。
提升模型对用户指令的遵循能力和输出质量。

代码：https://github.com/AIDC-AI/Ovis
模型（Huggingface)：https://huggingface.co/AIDC-AI/Ovis2-34B
模型（Modelscope)：https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45
Demo：https://huggingface.co/spaces/AIDC-AI/Ovis2-16B
arXiv: https://arxiv.org/abs/2405.20797

02 DeepSeek开源首个代码库FlashMLA，突破H800性能上限

2月24日，DeepSeek宣布启动“开源周”，开源首个代码库 FlashMLA。

要知道，DeepSeek 训练成本极低的两大关键，一个是MoE，另一个就是MLA。

FlashMLA 是一个为 Hopper GPU 优化的高效 MLA 解码内核，专注于可变长度序列的服务，目前已正式投产使用。该项目目前支持 BF16 格式，并使用块大小为 64 的分页 kvcache。其设计灵感来源于 FlashAttention 2&3 和 cutlass 项目，旨在提供高效的内存和计算性能。

Hopper 是英伟达的GPU（图形处理芯片）架构，例如H100和H800，发布于2022年，主要用于AI计算。

经实测，FlashMLA 在H800 SXM5平台上（CUDA 12.6），在内存受限配置下可达最高3000GB/s，在计算受限配置下可达峰值580 TFLOPS。

开源地址：https://github.com/deepseek-ai/FlashMLA

欢迎各位关注我的微信公众号：HsuDan，我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。