本文是LLM系列文章,针对《NVILA: Efficient Frontier Visual Language Models》的翻译。
摘要
近年来,视觉语言模型(VLMs)在准确性方面取得了重大进展。然而,它们的效率受到的关注要少得多。本文介绍了NVILA,这是一个开放式VLM系列,旨在优化效率和精度。在VILA的基础上,我们通过首先扩大空间和时间分辨率,然后压缩视觉token来改进其模型架构。这种“先缩放后压缩”的方法使NVILA能够高效地处理高分辨率图像和长视频。我们还进行了系统的调查,以提高NVILA从训练和微调到部署的整个生命周期的效率。NVILA在广泛的图像和视频基准测试中与许多领先的开放式和专有VLM的准确性相匹配或超越。同时,它将训练成本降低了4.5倍,将内存使用量微调了3.4倍,预填充延迟降低了1.6-2.2倍,解码延迟降低了1.2-2.8倍。我们很快就会提供我们的代码和模型,以促进可重复性。
1 引言
2 方法
3 实验
4 更多能力
5 相关工作
6 结论
本文介绍了NVILA,这是一个开放式VLM系列,旨在在效率和精度之间达到最佳平衡。通过采用“缩放然后压缩”的范式,NVILA可以有效地处理高分辨率图像和长视频,同时保持高精度。我们还系统地优化了从训练到微调再到推理的整个生命周期的效率。NVILA提供了与当前领先的VLM相匹配或超越的性能,同时显著提高了资源效率。此外,NVILA为时间定位、机器人导航和医学成像等应用开辟了新的可能性。我们很快就会推出我们的模型。我们希

订阅专栏 解锁全文
141

被折叠的 条评论
为什么被折叠?



