Spatiotemporal Residual Networks for Video Action Recognition

该文提出一种基于3D ResNet的行为识别方法,通过扩展ResNet到时空域并引入残差连接来增强特征学习。实验证明,此方法在UCF101和HMDB51数据集上取得显著效果。

这篇文章出自2016 NIPS, 作者是格林茨大学的Feichtenhofer。

背景:几乎现在行为识别领域,比较work的工作都是基于二流网络。其中appearance和motion分别由两个不同的网络学习,并将两个网络的结果做融合后产生识别。

本文创新部分
a、将二维空间ResNet网络部分扩展到时间域。即原来的二维空间网络W*H*C 映射到W*H*T*C,
具体初始化方法如下:这里写图片描述

这样的好处有两个:
a1)在一个网络里同时学习空时域特征。
a2)可以通过将二维模型的权重平均在在时间域上作为STResNet的初始化。带来的好处是:可以使用迁移学习而不是learning from scratch。
b、从motion网络引入residual connection到apprearance 网络,并同时fine-tune训练网络学习空时特征。

网络结构

这里写图片描述

具体原理图如下
这里写图片描述
红色即连接appearance流和motion流的residual connection(残差连接),利用ResNet的原因是其由于其跨越连接(黑色的跳跃箭头)可以避免梯度流失的问题,网络深度也比VGG深,网络表达能力也相应增强。

改进部分
1、对于数据的输入部分,采用了skip frame采样。对应原文:to train our spatiotemporal ResNet we sample 5 inputs from a video with random temporal stride between 5 and 15 frames.
即:每个输入都是5个snippets,对于RGB网络,snippet=1,对于Flow网络,snippet=L(光流stacked数目)。

实验结果
这里写图片描述
Overall, our 94.6% on UCF101 and 70.3% HMDB51 clearly sets a new state-of-the-art on these widely used action recognition datasets.

实验结论
1、we demonstrate that injecting residual connections between the two streams and jointly fine-tuning the resulting model achieves improved performance over the two-stream architecture.
(从motion stream向appearance stream引入的residual connection 能够改善原来的二流框架在行为识别领域的识别率)

2、We convert convolutional dimensionality mapping filters to temporal filters that provide the network with learnable residual connections over time. By stacking several of these temporal filters and sampling the input sequence at large temporal strides (i.e. skipping frames), we enable the network to operate over large temporal extents of the input.
(首先,对于输入视频,也是skip frame采样。其次,将二维卷积变换到三维卷积,这两个做法增大了在时间维度上的接收域。)

3、 we directly convert image ConvNets into 3D architectures and show greatly improved performance over the two-stream baseline.

个人观点
实际上,本文做了两件事情,第一,利用了前人3dcnn的工作,把二维ResNet扩展到3D ResNet学习空时域特征。第二,将ResNet内的残差单元从motion stream引入到了appearance stream。 实验结果,准确率高,有效。

在长视频-语言理解(video-language understanding)模型中,时空自适应压缩技术(spatiotemporal adaptive compression technique)是一种用于优化模型处理长视频时的计算和内存效率的方法。这种技术的核心思想是通过动态调整视频帧和空间区域的采样密度,以减少冗余信息的处理,同时保留关键语义内容[^1]。 ### 原理与实现方式 1. **时间维度压缩(Temporal Compression)** 视频通常由大量连续帧组成,但并非所有帧都对最终的任务(如视频问答、动作识别)有同等重要的贡献。时间维度压缩的目标是识别并保留关键帧,同时跳过或合并冗余帧。例如,如果视频中某个时间段内的内容变化较小(如静态场景或缓慢移动的物体),可以减少对该时间段的采样频率。这种动态调整帧采样率的方法可以显著减少计算量[^1]。 2. **空间维度压缩(Spatial Compression)** 在单帧内部,视频的不同区域可能具有不同的信息重要性。例如,在一个描述“人在跑步”的视频帧中,人物所在的区域可能比背景区域更为重要。空间维度压缩技术通过识别这些关键区域,并对这些区域进行高分辨率处理,而对其他区域进行低分辨率处理或忽略。这种策略不仅减少了计算资源的消耗,还能提升模型对关键信息的关注度[^1]。 3. **自适应机制(Adaptive Mechanism)** 自适应机制是该技术的核心部分,它允许模型根据输入视频的时空特征动态调整压缩策略。具体来说,模型会根据当前帧的内容(如运动强度、物体分布等)决定下一组需要处理的帧以及每个帧中需要关注的空间区域。这种机制通常通过一个可学习的模块实现,例如基于注意力机制(attention-based module)或强化学习(reinforcement learning)[^1]。 ### LongVU 模型中的应用 LongVU 是一种专为长视频-语言理解任务设计的模型,它结合了时空自适应压缩技术来处理长时间跨度的视频数据。LongVU 的主要特点包括: - **层次化压缩策略**:LongVU 在不同层次上应用时空压缩。例如,在粗粒度层面上,模型可能会跳过大量冗余帧;而在细粒度层面上,模型会聚焦于特定帧中的关键区域。 - **跨模态交互优化**:由于视频-语言理解任务涉及视频内容与文本描述的交互,LongVU 在压缩过程中考虑了语言模态的信息。例如,模型可能会根据输入的文本问题动态调整视频帧的采样策略,以确保与问题相关的视觉内容被保留[^1]。 - **端到端训练**:LongVU 的压缩模块与主任务模块(如分类或生成模块)一起进行端到端训练,确保压缩策略能够适应具体的任务需求。 ### 示例代码 以下是一个简化的时空自适应压缩模块的伪代码,展示了如何根据帧的内容动态调整采样策略: ```python def adaptive_temporal_sampling(frames, motion_threshold): key_frames = [] for i in range(len(frames)): if i == 0 or calculate_motion(frames[i-1], frames[i]) > motion_threshold: key_frames.append(frames[i]) return key_frames def calculate_motion(frame_prev, frame_curr): # 简单的帧间差异计算,用于衡量运动强度 return np.mean(np.abs(frame_prev - frame_curr)) ``` 在这个示例中,`adaptive_temporal_sampling` 函数根据帧间运动强度决定哪些帧是关键帧。如果帧间的运动强度大于设定的阈值,则保留该帧作为关键帧;否则,跳过该帧。 ### 应用场景 时空自适应压缩技术在多种视频-语言理解任务中具有广泛应用,包括: - **视频问答(Video Question Answering)**:在处理长视频时,模型可以动态调整帧采样策略,以聚焦于与问题相关的视频片段。 - **视频摘要(Video Summarization)**:通过识别关键帧和关键区域,模型可以生成简洁的视频摘要,减少冗余信息。 - **动作识别(Action Recognition)**:对于长时间跨度的视频,模型可以专注于包含动作的帧,而忽略无关帧。 ### 总结 时空自适应压缩技术通过动态调整视频帧和空间区域的采样密度,显著提高了长视频-语言理解模型的效率。LongVU 作为这一技术的典型应用,能够在保持任务性能的同时,大幅降低计算和内存开销。未来,这种技术有望在更多涉及长视频处理的任务中发挥作用。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值