视频与循环神经网络及模型优化部署
循环神经网络与LSTM
循环神经网络(RNN)在处理序列数据时存在梯度消失的问题。而长短期记忆网络(LSTM)通过特殊的结构设计,在一定程度上缓解了这一问题。LSTM的权重同样通过时间反向传播(BPTT)计算,由于LSTM单元中有众多信息路径,梯度计算更为复杂。不过,如果遗忘门$f_{ }$的项接近1,信息就能从一个单元状态传递到另一个单元状态。通过将遗忘门偏置初始化为全1向量,可确保信息在多个时间步长中反向传播,从而使LSTM受梯度消失的影响较小。
视频分类相关技术
从电视到网络流媒体,视频格式越来越受欢迎。计算机视觉领域,对视频的处理面临着每秒帧数多的问题,例如每秒30帧的视频,每分钟需分析1800帧。为了高效分析视频,人们开发了一些技术:
- 采样技术 :每秒只分析一到两帧,而非所有帧。这种方法更高效,但可能会丢失重要的短暂场景信息,如之前提到的枪声场景。
- 场景提取技术 :常用于电影分析。通过算法检测视频场景的变化,例如相机从特写切换到全景时,会从每个画面中提取一帧进行分析。该技术通过处理图像像素并评估连续两帧之间的差异来实现,差异较大则表明场景发生了变化。
此外,视频还存在一些特定的任务:
| 任务名称 | 任务描述 |
| ---- | ---- |
| 动作检测 | 视频分类的一种变体,目标是对人正在完成的动作进行分类,动作范围从跑步到踢足球,甚至可以精确到正在表演的舞蹈类型或正在演奏的乐器。 |
| 下一帧预测 | 根据N个连续帧,预测第N + 1帧的样子。 |
超级会员免费看
订阅专栏 解锁全文
2886

被折叠的 条评论
为什么被折叠?



