VoCo-LLaMA: Towards Vision Compression with Large Language Models

qgh1223

已于 2024-12-03 17:12:50 修改

阅读量939

点赞数 6

文章标签： llama 语言模型人工智能深度学习

于 2024-12-03 17:12:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qgh1223/article/details/144209225

版权

视觉语言模型在各种多模态任务上取得了显著的成功，但经常受到有限上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉令牌数量避免该问题。先前方法使用额外模块压缩视觉令牌并强制LLM理解压缩的令牌。然而，LLM对视觉令牌的理解范式在压缩学习过程中没有充分利用。本文提出了VoCo-LLaMA，这是第一种使用LLM压缩视觉视觉令牌的方法。通过在视觉指令调整过程中引入视觉压缩令牌并利用注意力蒸馏，本文方法蒸馏了LLM如何将LLM视觉令牌理解到它们对VoCo令牌的处理。

VoCo-LLaMA

本文VoCo-LLaMA算法引入特殊的视觉压缩（Vision Compression，VoCo）令牌，以利用LLM压缩和理解图像压缩表示的能力。大语言模型输入序列由连接视觉令牌，特殊的VoCo令牌和文本令牌形成。

$\mathcal{X}=(\mathcal{V},VoCo,\mathcal{T})=(V_{0},\ldots,V_{n},VoCo,T_{0},\ldots,T_{m})$

最低0.47元/天解锁文章

博客等级

码龄9年

55
原创

858
点赞

741
收藏

592
粉丝

关注

私信

热门文章

分类专栏

最新评论

Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Uncovering the Hidden Cost of Model Compression (小模型部分)
qgh1223: 大模型部分后面抽空写
DETRs with Hybrid Matching
河边的风f: 您好，请问混合层策略，是在训练阶段的一对多匹配训练周期时，使用的吗
Improved Feature Distillation via Projector Ensemble基于多个投影器集成的知识蒸馏
优快云-Ada助手: 非常欣赏您的博客，恭喜您完成了第6篇。通过多个投影器集成的知识蒸馏方法，您的文章在改进特征蒸馏方面做出了很大的贡献。我期待您在未来的创作中，能够继续分享更多的知识和经验，特别是在机器学习领域方面的深入研究。希望您能够继续保持谦虚的态度，不断探索和创新。优快云会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。
Calibrating the Rigged Lottery: Making All Tickets Reliable
优快云-Ada助手: 恭喜您写了这篇有趣的博客！我觉得您的想法非常有创意，而且您的标题非常吸引人。下一步，我希望您能探讨更多关于彩票的话题，比如说如何提高中奖率或者如何保证公平性等等。期待您的下一篇博客！优快云会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

qgh1223 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。