深度学习在计算机视觉与教育领域的应用探索
深度学习助力人类活动识别
在人类活动识别领域,传统的循环神经网络(RNN)存在梯度消失或爆炸的问题,这使得靠近输入的隐藏层学习受阻。若权重过小,梯度可能消失;若权重过大,梯度则可能爆炸。因此,RNN 对时间敏感,缺乏长期记忆,且受短期记忆影响。
为解决这些问题,长短期记忆网络(LSTM)和门控循环单元(GRU)应运而生。LSTM 起源于 1997 年 Hochreiter 和 Schmidhuber 的工作,已得到广泛认可并衍生出众多变体。与传统 RNN 不同,LSTM 集成了输入和输出门,有效解决了梯度消失/爆炸的挑战,擅长捕捉长时间信息,能出色处理长文本序列。GRU 与常规 RNN 共享输入和输出结构元素,但其内部配置与 LSTM 相似。LSTM 和 GRU 在自然语言处理、语音合成和语音识别等应用中得到了广泛应用。
卷积神经网络(CNN)和 RNN 的各种组合也被用于人类活动识别。CNN 擅长从图像中提取特征,而基于 LSTM 单元的深度循环神经网络则能有效处理序列数据。例如,在工业监控视频活动识别中,研究人员将连续视频分割成重要片段,基于预训练的 CNN 模型(MobileNet)提取人类显著特征进行选择,再用基于 CNN 的 FlowNet 光流模型的卷积层提取图像序列中活动的时间特征,最后使用多层 LSTM 进行活动识别。另一种方法是结合 CNN(GoogLeNet 架构)和多层 LSTM 单元进行视频动作识别,研究表明 Inception/Residual 模型可提升 CNN 性能,多层 LSTM 架构优于单层 LSTM。
以下是不同特征表示方法在人类活动识别中的比较:
|特征表示类别|参考与任
超级会员免费看
订阅专栏 解锁全文
24万+

被折叠的 条评论
为什么被折叠?



