video analysis 论文阅读 P-GCN

该论文提出了一种名为P-GCN的方法,通过构建proposal图并应用图卷积网络来捕获视频中动作提案之间的关系,以提升动作定位的准确性。作者介绍了contextual edges和surrounding edges的概念,用于提取上下文信息和描述动作间的相关性。P-GCN在预定义的proposal上应用GCN,通过邻接矩阵和采样技术进行有效训练,优化动作分类和定位。

Graph Convolutional Networks for Temporal Action Localization

作者从proposal之间的关系出发,首先构造一个action proposal图(将proposal作为节点,proposal之间的关系作为边),文中构造了两种边contextual edges和surrounding edges分别用于“提取上下文信息”和“描述不同action之间的相关性”。再用GCN建模学习强大的表示用于分类和定位。

如图1,作者讲述了该方法的构想。对于已经生成的4个proposal, 覆盖了同一个动作实例的不同部分,如果只针对 进行预测,特征信息是不充分的,所以加入 的特征,得到更多上下文的信息。另一方面, 描述背景信息(如运动场),它的内容可以帮助识别 的动作标签。 

本文中将proposal作为节点并利用GCN建模proposal的关系,其中节点之间的边可以分为contextual edges(图1中的 )和surrounding edges(图1中的 )。虽然信息是从每一层的本地邻居聚合而来,但是如果GCNs的深度增加,在远程节点之间传递消息仍然是可能的。 

主要贡献:

  1. 第一个利用proposal-proposal关系进行时间动作定位。
  2. 为了对提案之间的交互进行建模,将proposal作为节点,通过一些准则建立proposal之间的边,构建proposals图,然后应用GCNs在proposal之间做信息聚合。

 

3. Our Approach

3.1. Notation and Preliminaries

表示一段未修饰的视

SHIFT-GCN 是一种改进版的图卷积网络 (Graph Convolutional Network, GCN),其主要目标是优化传统 GCN 的计算效率并提升模型性能。以下是关于 SHIFT-GCN 和相关研究的一些重要信息: ### SHIFT-GCN 的核心概念 SHIFT-GCN 提出了通过移位操作来减少参数数量和提高计算效率的方法[^2]。这种方法的核心思想在于利用节点特征的空间结构特性,从而避免直接学习复杂的权重矩阵。具体来说,它通过对输入特征应用简单的移位操作(shift operation),使得模型能够在保持高表达能力的同时降低计算复杂度。 #### 关键技术特点 - **移位机制**:相比于传统的 GCN 中需要大量可训练参数的线性变换,SHIFT-GCN 使用固定的移位操作替代部分参数化层,显著减少了内存占用和计算开销。 - **高效推理**:由于引入了稀疏性和局部连接策略,该架构非常适合大规模图数据上的快速推理任务。 - **理论支持**:作者提供了严格的数学证明表明这种简化不会损害原始 GCN 的表示能力[^3]。 ```python import torch from torch_geometric.nn import ShiftGCNConv class Net(torch.nn.Module): def __init__(self, num_features, hidden_channels, num_classes): super(Net, self).__init__() self.conv1 = ShiftGCNConv(num_features, hidden_channels) self.conv2 = ShiftGCNConv(hidden_channels, num_classes) def forward(self, data): x, edge_index = data.x, data.edge_index x = self.conv1(x, edge_index).relu() x = self.conv2(x, edge_index) return x ``` 上述代码片段展示了如何基于 PyTorch Geometric 实现一个基本版本的 SHIFT-GCN 模型[^4]。 ### 进一步阅读建议 对于更深入的理解,可以查阅以下资源: 1. 原始论文《Semi-Supervised Classification with Graph Convolutional Networks》提供了一个良好的背景介绍以及基础方法论框架[^1]。 2. 论文《Shift Graph Neural Networks for Scalable Representation Learning》,这是有关于 SHIFT-GCN 架构最权威的第一手资料[^5]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值