视频与循环神经网络及模型优化部署
1. 循环神经网络与LSTM
循环神经网络(RNN)在处理序列数据时存在梯度消失的问题。长短期记忆网络(LSTM)作为RNN的一种改进架构,其权重同样通过时间反向传播(BPTT)计算。由于LSTM单元中有众多信息路径,梯度计算更为复杂。不过,当遗忘门 $f $ 的项接近1时,信息可以从一个单元状态传递到另一个单元状态。通过将遗忘门偏置初始化为全1向量,能确保信息在多个时间步长上反向传播,从而使LSTM受梯度消失问题的影响较小。
2. 视频分类相关技术
从电视到网络流媒体,视频格式越来越受欢迎。计算机视觉领域早期就面临着处理视频大量帧的问题,例如每秒30帧的视频,每分钟就有1800帧需要处理。为了高效分析视频,人们提出了以下技术:
- 采样技术 :每秒只分析一到两帧,而不是全部帧。这种方法虽然更高效,但如果重要场景短暂出现,可能会丢失信息。
- 场景提取技术 :常用于电影分析,通过算法检测视频场景的变化。例如,当摄像机从特写切换到全景时,会从每个画面中提取一帧进行分析。该技术通过处理图像像素并评估连续两帧之间的变化来实现,大的变化表示场景改变。
此外,图像相关任务如超分辨率、分割和风格迁移也适用于视频。视频的时间特性还催生了一些特定任务:
| 任务名称 | 任务描述 |
| ---- | ---- |
| 动作检测 | 对视频中人物的动作进行分类,动作范围从跑步到踢足球,甚至可以精确到舞蹈类型或演奏的乐器。 |
| 下一帧预测 | 根据N个连续帧预测第N + 1帧的样子。 |
|
超级会员免费看
订阅专栏 解锁全文
2865

被折叠的 条评论
为什么被折叠?



