基于Deep Learning 的视频识别方法概览

最新推荐文章于 2025-03-11 12:31:38 发布

原创

最新推荐文章于 2025-03-11 12:31:38 发布 · 4.6k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习 #视频识别 #内容安全 #AI

本文介绍了基于深度学习的视频识别方法，包括单帧识别、CNN扩展网络、双路CNN、LSTM和3D CNN等技术，探讨了它们在视频理解、目标检测和动作识别中的应用。同时，提到了阿里聚安全内容安全在视频识别领域的实践。

深度学习在最近十来年特别火，几乎是带动AI浪潮的最大贡献者。互联网视频在最近几年也特别火，短视频、视频直播等各种新型UGC模式牢牢抓住了用户的消费心里，成为互联网吸金的又一利器。当这两个火碰在一起，会产生什么样的化学反应呢？

不说具体的技术，先上一张福利图，该图展示了机器对一个视频的认知效果。其总红色的字表示objects, 蓝色的字表示scenes，绿色的字表示activities。

图1

人工智能在视频上的应用主要一个课题是视频理解，努力解决“语义鸿沟”的问题，其中包括了：

· 视频结构化分析：即是对视频进行帧、超帧、镜头、场景、故事等分割，从而在多个层次上进行处理和表达。

· 目标检测和跟踪：如车辆跟踪，多是应用在安防领域。

· 人物识别：识别出视频中出现的人物。

· 动作识别：Activity Recognition，识别出视频中人物的动作。

· 情感语义分析：即观众在观赏某段视频时会产生什么样的心理体验。

短视频、直播视频中大部分承载的是人物+场景+动作+语音的内容信息，如图1所示，如何用有效的特征对其内容进行表达是进行该类视频理解的关键。传统的手工特征有一大堆，目前效果较好的是iDT(Improved Dense Trajectories) ，在这里就不加讨论了。深度学习对图像内容的表达能力十分不错，在视频的内容表达上也有相应的方法。下面介绍最近几年主流的几种技术方法。

最低0.47元/天解锁文章

评论 2

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。