
文章主要内容和创新点总结
主要内容
本文针对视觉语言模型(VLMs)中视觉令牌数量激增导致的效率问题,提出了一种名为VisionThink的新范式。研究发现,大多数通用视觉问答(VQA)任务仅需1/4分辨率的图像即可保持性能,而OCR相关等精细任务则依赖高分辨率输入。VisionThink通过以下方式实现效率与性能的平衡:
- 动态分辨率调整:先处理低分辨率图像,若信息不足则输出特殊令牌请求高分辨率图像。
- 强化学习优化:采用LLM-as-Judge策略解决通用VQA的评估难题,并扩展多轮GRPO算法适应多轮交互。
- 奖励机制设计:结合准确率奖励、格式奖励和惩罚控制,稳定图像缩放请求比例,避免模型坍缩。
实验表明,VisionThink在OCR相关任务上保持高性能,同时在简单任务上节省大量视觉令牌,效率优于现有方法(如FastV、SparseVLM)。
创新点
- 动态令牌压缩范式:不同于固定比例压缩,根据样本需求自主决定是否使用高分辨率,兼顾效率与精细任务性能。
- LLM-as-Judge策略

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



