多尺度时空注意力计算模型与视觉数据特征选择
多尺度时空注意力计算模型
在视频数据处理中,多尺度时空注意力模型有着重要的应用。该模型的核心在于对时空显著性的处理。其中,$s_n(i; j; t; q)$ 是对应第 $n$ 个属性图的第 $n$ 个时空显著性分量,$b_n$ 是第 $n$ 个显著性系数。MSIA 算子中 ${b_n}$ 的优化值推导基于 Fisher 线性判别分析(LDA)方法,其目的是将 $N$ 个显著性分量转换到 $F[i; j; t; q]$ 值的单一轴上,最大化对象点和背景点的 $F[i; j; t; q]$ 值差异,同时最小化仅对应对象点的 $F[i; j; t; q]$ 值差异。
FoA 点 $(u; v; s) k$ 及其相关局部尺度值 ${r_k}$ 的顺序检测和分析过程如下:
[
(u; v; s; r)_k = \arg\max {(i; j; t) \in A, q \in X} {F[i; j; t; q], (i; j; t) \notin Z_{k - 1}}
]
其中,$Z_{k - 1}$ 是先前检测到的 FoA 点集,$X$ 是注意力算子的尺度范围,$A$ 是当前分析的视频数据子集。
MSIA 算子采用了类似递归 STIA 算法的快速递归实现方式,使得计算与窗口大小无关,每个像素和每个尺度值的计算复杂度为 $O(N)$,这里的 $N$ 是属性图的总数。它基于方形窗口形状的二维滤波器的递归实现,近似圆形(各向同性)窗口 $W_q = S_q \cup Q_q$。
该注意力模型在视频数据对象检测方面有重要应用,可实现对视频中感兴趣对象的快速、鲁棒检测。多对象
超级会员免费看
订阅专栏 解锁全文
2766

被折叠的 条评论
为什么被折叠?



