该问题归类到Transformer架构问题集——注意力机制——跨模态与多模态。请参考LLM数学推导——Transformer架构问题集。
在视频理解任务中,捕捉帧与帧之间的时间依赖关系(如动作的连贯性、物体的运动轨迹)是核心挑战。时序注意力(Temporal Attention)如同 “视频的时间显微镜”,能动态聚焦关键帧并建模长距离依赖,成为视频模型的核心组件。以下从数学原理、帧间依赖建模、LLM 中的多模态应用及代码实践展开,带您揭开时间序列建模的神秘面纱。
1. 时序注意力:视频帧间依赖的 “动态连接器”
核心目标:给定视频的帧序列 (T 为帧数,
为第 t 帧的特征),时序注意力计算每一帧 t 与所有帧 s 的依赖权重
,使模型能聚焦对当前帧最关键的历史或未来帧。
与空间注意力的区别:
- 空间注意力关注单帧内像素 / 区域的关系(2D 空间);
- 时序注意力关注跨帧的时间关系(1D 时间轴),核心是建模 t 和 s 之间的时间距离
对依赖的影响。
2. 数学理论:从基础公式到帧间依赖推导
2.1 基础注意力公式
时序注意力遵循 Transformer 的缩放点积注意力框架:
- 查询(Query, Q):当前帧的特征
;
- 键(Key, K):所有帧的特征
;
- 值(Value, V):所有帧的特征

最低0.47元/天 解锁文章
2275

被折叠的 条评论
为什么被折叠?



