2025_NIPS_ViSpec: Accelerating Vision-Language Models with Vision-Aware Speculative Decoding

在这里插入图片描述

一、文章主要内容总结

该研究聚焦于视觉语言模型(VLMs)推理加速问题,针对现有推测解码技术在VLMs中仅能实现有限加速(<1.5倍)的痛点,提出了专为VLMs设计的视觉感知推测解码框架(ViSpec)。

核心思路是解决视觉数据冗余与模态一致性难题:通过轻量级视觉适配模块压缩图像令牌,提取全局视觉特征并注入文本生成过程,同时构建含长响应的合成训练数据集,让小型草稿模型能有效利用视觉上下文进行预测。

实验验证显示,ViSpec在LLaVA-1.6(7B/13B)、Qwen2.5-VL(3B/7B)四款主流VLMs上,在8个多模态基准任务(含视觉问答、图像描述等)中实现1.37-3.22倍的显著加速,且不损失生成质量,首次实现了VLMs推测解码的实质性提速。

二、文章创新点

  1. 视觉感知推测解码框架:提出ViSpec,专为VLMs设计双集成机制——注意力集成(将压缩图像令牌融入草稿模型注意力层)和特征增强(全局视觉特征注入文本令牌),解决小型草稿模型难以处理视觉信息的问题。
  2. 图像令牌压缩与全局特征提取:设计轻量级视觉适配模块,将大量冗余图像令牌压缩为紧凑表示(保留空间位置信息);提取全局视觉特征向量,持续注入文本生成过程,缓解“中间遗忘”效应,增强模态一致性。
  3. 长响应数据集生成策
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值