该问题归类到Transformer架构问题集——架构变体——跨模态扩展。请参考LLM数学推导——Transformer架构问题集。
一、问题背景:当视频的时空维度需要「各司其职」
视频数据是典型的时空复合体 —— 既有单帧图像的空间结构(宽度、高度),又有帧序列的时间顺序(帧率、动态变化)。传统 Transformer 处理视频时,早期方法直接沿用图像位置编码或时间序列编码,忽视了时空维度的本质差异:空间关注像素的局部关联(如物体形状),时间关注帧间的运动信息(如物体位移)。时空位置编码分离,即将空间位置编码(处理单帧空间结构)与时间位置编码(处理帧间时序关系)独立设计,成为提升视频 Transformer 性能的关键。这种分离是否有效?如何从原理上解释其优势?
二、技术原理:时空特性差异驱动编码分离的因果逻辑
视频的时空维度在以下三方面存在本质差异,决定了编码方式需要分离:
2.1 信号特性差异
- 空间维度:单帧图像是二维网格结构,像素间存在强局部相关性(如相邻像素构成边缘),位置编码需捕捉空间结构(如相对距离、网格坐标)。
- 时间维度:帧序列是一维时序信号,帧间存在动态依赖(如物体运动轨迹),位置编码需捕捉时间顺序(如前后帧的时序关系、运动方向)。
2.2 建模目标差异
- 空间编码核心:描述像素 / 补丁(Patch)在单帧内的位置,如 ViT 的二维位置编码(绝对位置或相对位置)。
- 时间编码核心:描述帧在序列中的顺序,以及帧间的运动信息,如循环神经网络(RNN)式的时序嵌入或基于差分的运动编码。
2.3 数学表达差异
假设视频序列包含 T 帧,每帧分辨率

最低0.47元/天 解锁文章
999

被折叠的 条评论
为什么被折叠?



