Hierarchically Aggregated ConvNets for Action Recognition
1. 核心方法概述
在动作识别领域,为了更好地捕捉动作视频中的长期动态,提出了一种新颖的分层聚合深度卷积网络(Hierarchically Aggregated ConvNets,HACNN)模型。该模型由特殊的聚合函数作用于每个层级的子卷积网络的输出特征图,通过重复多层操作,能够捕捉视频中复杂的动态信息。
1.1 聚合函数
原始的聚合函数 (G) 虽然能对不同特征图中每个元素的重要性进行建模,但涉及的大量参数会导致严重的过拟合问题。因此,提出了修改后的聚合函数:
[
G_{l,i}(\mathbf{f} l) = \sum {k = i - t_l}^{i + t_l} W_{g,k} \circ \mathbf{f}_{l,k}
]
其中,(\circ) 表示输入矩阵之间的 Hadamard 积,(W_g) 是与 (\mathbf{f}_l) 维度相同的权重向量,聚合函数以元素方式汇集来自不同片段的信息,同时保留丰富的空间信息,聚合量由感受野 (t_l) 决定。
此外,还研究了简单平均函数(将所有输入同等对待)和最大聚合函数:
[
G_{l,i}^{\text{max}}(\mathbf{f} l) = \max{\mathbf{f} {l,k} | k = i - t_l, \cdots, i + t_l}
]
1.2 正则化函数
为了提高 HACNN 在不同层级的判别能力,采用了
超级会员免费看
订阅专栏 解锁全文
7761

被折叠的 条评论
为什么被折叠?



