PaddlePaddle百度论文复现营——视频分类入门学习笔记
1 任务与背景
视频分类任务、问题与挑战、经典数据集、深度学习相关背景知识
1.1 视频分类的意义

1.2 视频分类定义

1.3 视频分类的挑战

1.4 视频分类发展历程

1.5 视频分类数据集
1.5.1 HMDB-51

主要用于行为识别
1.5.2 UCF-101

主要用于行为识别,运动分析,是最具有影响力的视频分类数据集之一
1.5.3 Sports-1M

主要用于行为识别,运动分析,斯坦福大学提供的视频分类数据集,其运动信息丰富
1.5.4 Youtube-8M

主要用于行为识别,但由于视频特征并不完善,限制了算法设计发挥的空间
1.5.5 Kinetics

主要用于行为识别,由deepmind团队提出,是最具有影响力的视频分类数据集之一
1.5.6 其他视频分类数据集

1.6 传统视频分类方法vs深度学习视频分类方法

1.7 深度学习的优势

1.8 卷积神经网络(CNN)

1.9 循环神经网络(RNN)

1.10 循环神经网络(LSTM)

2 视频分类方法
双流网络、静态图像特征聚合、3D卷积等经典视频分类方法
2.1 视频分类方法概述

2.2 双流网络方法



2.3 TSN——双流网络方法

2.4 双流网络方法小结

2.5 静态图像特征聚合


2.6 CNN&LSTM——静态图像特征聚合


2.7 ActionVLAD——静态图像特征聚合

2.8 Attention Cluster——静态图像特征聚合


2.9 静态图像特征聚合小结

2.10 C3D——3D卷积方法

2.11 P3D——3D卷积方法

2.12 I3D——3D卷积方法


2.13 3D卷积方法小结

3 前沿进展
高效视频网络、运动增强的RGB分类、快慢信息结合网络、光流表示学习、时序金字塔网络
3.1 高效视频理解卷积网络


3.2 运动增强的RGB分类


3.3 SlowFast快慢信息结合网络

3.4 光流表示学习

3.5 时序金字塔网络


3.6 趋势展望


4 课程实践
TSN.py代码补全
import paddle.fluid as fluid

本文介绍了视频分类的意义、挑战和发展历程,重点探讨了深度学习在视频分类中的应用,如卷积神经网络(CNN)、循环神经网络(RNN)和LSTM。详细讲解了双流网络、静态图像特征聚合与3D卷积方法,并概述了高效视频理解卷积网络、运动增强RGB分类等前沿进展。通过PaddlePaddle实现视频分类的课程实践。
最低0.47元/天 解锁文章
2829

被折叠的 条评论
为什么被折叠?



