NVIDIA Research新研究成果VILA2：视觉语言模型能力的自我提升

原创已于 2024-11-19 12:05:55 修改 · 980 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

于 2024-11-19 11:37:06 首次发布

青稞Talk 专栏收录该内容

81 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

关注公众号：青稞AI，学习最新AI技术
🔥青稞Talk主页：qingkelab.github.io/talks

VILA 是一种视觉语言基础模型，它通过在预训练阶段对大型语言模型（LLM）进行增强，使其能够处理和理解视觉信息。其核心思路是将图像和文本数据进行联合建模，通过控制比较和数据增强，提升模型在视觉语言任务上的性能。

在 VILA 的基础上，还延伸出了集成视频、图像、语言理解和生成的基础模型VILA-U、支持 1024 帧长视频训练和推理的 LongVILA，以及 World Model Benchmark 等工作。

VILA-U:Multi-token in, Multi-token out Training and Inference.
在这里插入图片描述

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

同时，在最新推出的 $VILA^2$ 中，采用三阶段训练范式：align-pretrain-SFT。该方法引入了一种新颖的增强训练方案，首先在自举循环中进行自我增强 VLM 训练，然后进行专家增强，以利用 SFT 期间获得的技能。这种方法通过改进视觉语义和减少幻觉，直接提高了 VLM 性能，从而提高数据质量，并在 MMMU 排行榜上取得了开源模型中的最佳成绩。

11月23日（本周六）上午11点，青稞Talk 第29期， $VILA^2$ 第一作者方云浩，将直播分享《VILA 2: 视觉语言模型能力的自我提升》。

本次 Talk 将会以 VILA (Nvidia’s fully open-sourced visual language model)为基础模型，首先向大家简单介绍视觉语言模型的背景，和 VILA 团队做 VILA 的初衷。然后会以如何提升一个视觉语言模型为引，展开分享“视觉语言模型的自我提升”。最后，也会探讨 VILA-verse 的一系列工作，比如VILA-U（理解生成统一）、LongVILA（支持视觉长序列训练和推理）、World Model Benchmark 等。