Graph Convolutional Networks for Temporal Action Localization
作者从proposal之间的关系出发,首先构造一个action proposal图(将proposal作为节点,proposal之间的关系作为边),文中构造了两种边contextual edges和surrounding edges分别用于“提取上下文信息”和“描述不同action之间的相关性”。再用GCN建模学习强大的表示用于分类和定位。

如图1,作者讲述了该方法的构想。对于已经生成的4个proposal,
覆盖了同一个动作实例的不同部分,如果只针对
进行预测,特征信息是不充分的,所以加入
的特征,得到更多上下文的信息。另一方面,
描述背景信息(如运动场),它的内容可以帮助识别
的动作标签。
本文中将proposal作为节点并利用GCN建模proposal的关系,其中节点之间的边可以分为contextual edges(图1中的
)和surrounding edges(图1中的
)。虽然信息是从每一层的本地邻居聚合而来,但是如果GCNs的深度增加,在远程节点之间传递消息仍然是可能的。
主要贡献:
- 第一个利用proposal-proposal关系进行时间动作定位。
- 为了对提案之间的交互进行建模,将proposal作为节点,通过一些准则建立proposal之间的边,构建proposals图,然后应用GCNs在proposal之间做信息聚合。
3. Our Approach
3.1. Notation and Preliminaries
用
表示一段未修饰的视

该论文提出了一种名为P-GCN的方法,通过构建proposal图并应用图卷积网络来捕获视频中动作提案之间的关系,以提升动作定位的准确性。作者介绍了contextual edges和surrounding edges的概念,用于提取上下文信息和描述动作间的相关性。P-GCN在预定义的proposal上应用GCN,通过邻接矩阵和采样技术进行有效训练,优化动作分类和定位。
最低0.47元/天 解锁文章
1618

被折叠的 条评论
为什么被折叠?



