视频理解AI模型分类与汇总

原创

已于 2023-05-22 14:04:17 修改 · 4.2k 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能 #神经网络

于 2023-05-12 17:29:25 首次发布

文章概述了视频模型的发展，从早期的STIP、iDT特征到卷积神经网络的双流网络，再到3D卷积如I3D和R(2+1)D模型。transformer在视频领域的应用，如UniFormer和TimeSformer，通过结合3DCNN和自注意力机制来处理时空信息。文章还提到了关键数据集如UCF101和Kinetics用于行为识别研究。

人工智能领域视频模型大体也经历了从传统手工特征，到卷积神经网络、双流网络（2014年-2017年）、3D卷积网络、transformer的发展脉络。为了时序信息，有的模型也结合用LSTM。

视频的技术大多借鉴图像处理技术，只是视频比图片多了一个时间维度。

下面内容先简单汇总下，后续再逐渐补充。

0.传统特征

0.1 STIP

该特征来源于论文《On space-time interest points》，该特征是时空兴趣点的经典特征。

0.2 improved dense trajectories（iDT）

iDT算法是行为识别领域中非常经典的一种算法，在深度学习应用于该领域前也是效果最好的算法。由INRIA的IEAR实验室于2013年发表于ICCV。目前基于深度学习的行为识别算法效果已经超过了iDT算法，但与iDT的结果做ensemble总还是能获得一些提升.

"Dense Trajectories and Motion Boundary Descriptors for Action Recognition"和"Action Recognition with Improved Trajectories"。这两篇都是H. Wang的文章，前者要更早一些，介绍了DT（Dense Trajectories）算法。后者则在前者的基础上进行了改进（improved），主要是引入了对背景光流的消除方法，使得特征更集中于对人的运动的描述。两者的框架大致相同。

&nbs

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI强仔 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。