01 阿里国际开源Ovis2系列多模态模型,6大模型尺寸通吃视频理解
2025 年 2 月 21 日,阿里巴巴国际团队开源新型多模态大语言模型 Ovis2 系列。
相比其前身 Ovis 系列,Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度,还通过指令微调和偏好学习大幅提升了思维链(CoT)推理能力,使其在数学推理和视频理解任务中表现尤为突出。
此外,Ovis2 引入了视频和多图像处理能力,并增强了多语言能力和复杂场景下的OCR能力,显著提升了模型的实用性。
-
Ovis2-34B 在权威评测榜单 OpenCompass 上展现出了卓越的性能。
-
在多模态通用能力榜单上,Ovis2-34B 位列所有开源模型第二,以不到一半的参数尺寸超过了诸多70B开源旗舰模型。
-
在多模态数学推理榜单上,Ovis2-34B 更是位列所有开源模型第一,其他尺寸版本也展现出出色的推理能力。
这些成绩不仅证明了 Ovis 架构的有效性,也展示了开源社区在推动多模态大模型发展方面的巨大潜力。
此次开源的 Ovis2 系列包括 1B、2B、4B、8B、16B 和 34B 六种不同参数规模的模型版本,以满足多样化需求。各个参数版本均达到了同尺寸的SOTA(State of the Art)水平。
Ovis2 的架构设计巧妙地解决了模态间嵌入策略差异这一局限性。它由视觉tokenizer、视觉嵌入表和LLM三个关键组件构成。
在训练策略上,Ovis2 采用了四阶段训练方法,以充分激发其多模态理解能力。
-
冻结 LLM,训练视觉模块,学习视觉特征到嵌入的转化。
-
增强高分辨率图像理解和多语言 OCR 能力。
-
使视觉嵌入对齐 LLM 的对话格式。
-
提升模型对用户指令的遵循能力和输出质量。
-
代码:https://github.com/AIDC-AI/Ovis
-
模型(Huggingface):https://huggingface.co/AIDC-AI/Ovis2-34B
-
模型(Modelscope):https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45
-
Demo:https://huggingface.co/spaces/AIDC-AI/Ovis2-16B
-
arXiv: https://arxiv.org/abs/2405.20797
02 DeepSeek开源首个代码库FlashMLA,突破H800性能上限
2月24日,DeepSeek宣布启动“开源周”,开源首个代码库 FlashMLA。
要知道,DeepSeek 训练成本极低的两大关键,一个是MoE,另一个就是MLA。
FlashMLA 是一个为 Hopper GPU 优化的高效 MLA 解码内核,专注于可变长度序列的服务,目前已正式投产使用。该项目目前支持 BF16 格式,并使用块大小为 64 的分页 kvcache。其设计灵感来源于 FlashAttention 2&3 和 cutlass 项目,旨在提供高效的内存和计算性能。
Hopper 是英伟达的GPU(图形处理芯片)架构,例如H100和H800,发布于2022年,主要用于AI计算。
经实测,FlashMLA 在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。
-
开源地址:https://github.com/deepseek-ai/FlashMLA
欢迎各位关注我的微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。