阿里国际开源Ovis2多模态新王炸!DeepSeek开源首个代码库FlashMLA!

01 阿里国际开源Ovis2系列多模态模型,6大模型尺寸通吃视频理解

2025 年 2 月 21 日,阿里巴巴国际团队开源新型多模态大语言模型 Ovis2 系列。

相比其前身 Ovis 系列,Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度,还通过指令微调和偏好学习大幅提升了思维链(CoT)推理能力,使其在数学推理和视频理解任务中表现尤为突出。

图片

此外,Ovis2 引入了视频和多图像处理能力,并增强了多语言能力和复杂场景下的OCR能力,显著提升了模型的实用性。

  • Ovis2-34B 在权威评测榜单 OpenCompass 上展现出了卓越的性能。

  • 在多模态通用能力榜单上,Ovis2-34B 位列所有开源模型第二,以不到一半的参数尺寸超过了诸多70B开源旗舰模型。

  • 在多模态数学推理榜单上,Ovis2-34B 更是位列所有开源模型第一,其他尺寸版本也展现出出色的推理能力。

这些成绩不仅证明了 Ovis 架构的有效性,也展示了开源社区在推动多模态大模型发展方面的巨大潜力。

图片

图片

图片

此次开源的 Ovis2 系列包括 1B、2B、4B、8B、16B 和 34B 六种不同参数规模的模型版本,以满足多样化需求。各个参数版本均达到了同尺寸的SOTA(State of the Art)水平。

Ovis2 的架构设计巧妙地解决了模态间嵌入策略差异这一局限性。它由视觉tokenizer、视觉嵌入表和LLM三个关键组件构成。

在训练策略上,Ovis2 采用了四阶段训练方法,以充分激发其多模态理解能力。

  1. 冻结 LLM,训练视觉模块,学习视觉特征到嵌入的转化。

  2. 增强高分辨率图像理解和多语言 OCR 能力。

  3. 使视觉嵌入对齐 LLM 的对话格式。

  4. 提升模型对用户指令的遵循能力和输出质量。

图片

  • 代码:https://github.com/AIDC-AI/Ovis

  • 模型(Huggingface):https://huggingface.co/AIDC-AI/Ovis2-34B

  • 模型(Modelscope):https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45

  • Demo:https://huggingface.co/spaces/AIDC-AI/Ovis2-16B

  • arXiv: https://arxiv.org/abs/2405.20797

02 DeepSeek开源首个代码库FlashMLA,突破H800性能上限

2月24日,DeepSeek宣布启动“开源周”,开源首个代码库 FlashMLA

要知道,DeepSeek 训练成本极低的两大关键,一个是MoE,另一个就是MLA

图片

FlashMLA 是一个为 Hopper GPU 优化的高效 MLA 解码内核,专注于可变长度序列的服务,目前已正式投产使用。该项目目前支持 BF16 格式,并使用块大小为 64 的分页 kvcache。其设计灵感来源于 FlashAttention 2&3 和 cutlass 项目,旨在提供高效的内存和计算性能。

Hopper 是英伟达的GPU(图形处理芯片)架构,例如H100和H800,发布于2022年,主要用于AI计算。

经实测,FlashMLA 在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。

图片

  • 开源地址:https://github.com/deepseek-ai/FlashMLA

欢迎各位关注我的微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

### 对 Ovis2-2B 模型进行微调 对于希望对 Ovis2-2B 进行微调的情况,可以遵循以下指导来准备环境并执行具体的微调操作。 #### 准备工作 为了有效地调整模型参数以适应特定的任务需求,在开始之前需确保已安装必要的依赖库以及获取预训练好的Ovis2-2B权重文件。通常情况下,这涉及到设置Python虚拟环境,并利用pip或其他包管理器安装所需的机器学习框架如PyTorch或TensorFlow等[^1]。 #### 数据集构建 考虑到Ovis2在数据构造上的改进特性,建议采用高质量、多样化的标注数据作为输入。这些数据应该覆盖目标应用场景中的各种情况,特别是如果计划增强某些特殊功能比如视频理解和多语言支持的话。此外,还需注意数据格式应符合所选深度学习框架的要求。 #### 微调过程 实际的微调可以通过定义一个的神经网络层或将现有的一些层冻结来进行。具体来说: ```python import torch.nn as nn from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments model_name = 'path_to_ovis2_2b' num_labels = 2 # 假设是一个二分类问题 # 加载预训练模型 model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=num_labels) # 定义训练参数 training_args = TrainingArguments( output_dir='./results', evaluation_strategy="epoch", learning_rate=2e-5, per_device_train_batch_size=8, per_device_eval_batch_size=8, num_train_epochs=3, weight_decay=0.01, ) # 使用Trainer API简化流程 trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=val_dataset, ) # 开始训练 trainer.train() ``` 上述代码片段展示了如何基于Hugging Face Transformers库加载预训练模型并对指定任务(此处假设为序列分类)实施简单的微调方案。当然,针对更复杂的任务可能还需要额外配置损失函数、优化算法以及其他超参数[^2]。 #### 后续评估与部署 完成微调之后,应当进行全面测试以验证性能提升效果,并考虑将最终版模型导出用于生产环境中。此时可借助于各类API服务或是容器化解决方案实现高效分发和集成。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值