主要内容总结
本文针对视频大语言模型(vLLMs)中token序列过长导致的计算效率问题,提出了Token Dynamics框架。该框架通过动态token聚类和时空信息解耦,将视频表示分解为:
- 简洁token库(Token Base):通过聚类相似token(如物体部件)生成紧凑的视觉特征。
- 令牌动态图(Token Dynamics Map):记录每个token的时空坐标(帧索引、空间位置),保留运动轨迹。
此外,提出交叉动态注意力机制(Cross-Dynamics Attention),在不增加token长度的情况下将动态信息融入token库。实验表明,该方法将token数量压缩至原始的0.07%,在NextQA-MC基准上仅损失1.13%准确率,同时在多个视频理解任务中保持竞争力。