DYNAMIC-LLAVA: EFFICIENT MULTIMODAL LARGE LANGUAGE MODELS VIA DYNAMIC VISION-LANGUAGE CONTEXT

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量280

点赞数 3

CC 4.0 BY-SA版权

分类专栏： LLM Daily Multimodal 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/145468203

LLM Daily 同时被 2 个专栏收录

1689 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Multimodal

164 篇文章

订阅专栏

本文是LLM系列文章，针对《DYNAMIC-LLAVA: EFFICIENT MULTIMODAL LARGE LANGUAGE MODELS VIA DYNAMIC VISION-LANGUAGE CONTEXT SPARSIFICATION》的翻译。

摘要

多模态大型语言模型（MLLM）在视觉理解、推理和交互方面取得了显著的成功。然而，在解码过程中，推理计算和内存随着输出token的生成而逐渐增加，直接影响MLLM的效率。现有的方法试图减少视觉上下文冗余，以实现高效的MLLM。不幸的是，预填充阶段视觉上下文减少的效率效益在解码阶段逐渐降低。为了解决这个问题，我们提出了一种动态视觉语言上下文稀疏化框架dynamic LLaVA，该框架在预填充阶段动态减少了视觉上下文的冗余，并降低了解码过程中生成的语言上下文的内存和计算开销。动态LLaVA为不同的推理模式（即预填充、有和没有KV缓存的解码）设计了一种量身定制的稀疏化推理方案，以实现MLLM的高效推理。在实践中，动态LLaVA可以在预填充阶段将计算消耗减少约75%。同时，在MLLM的整个生成过程中，DynamicLLaVA在没有KV缓存的情况下解码时减少了约50%的计算消耗，而在使用KV缓存解码时，由于视觉语言上下文的稀疏化，节省了50%的GPU内存开销。广泛的实验还表明，与完整的上下文推理基线相比，动态LLaVA实现了MLLM的有效推理，其理解和生成能力退化可以忽略不计，甚至性能提升也可以忽略不计。代码可在以下网址获得https://github.com/Osilly/dynamic_llava .