深度学习在人类活动识别中的计算机视觉应用
1. 深度学习与计算机视觉革命
近年来,深度学习(DL)方法在计算机视觉领域引发了一场革命,尤其自 2012 年以来。这场变革主要归因于两个关键因素:一是像 ImageNet 这样包含数百万张图像的大型公开标注图像数据集的出现;二是采用并行 GPU 计算来加速深度模型的训练,取代了基于 CPU 的方法。
AlexNet 卷积神经网络模型的发布,让人们意识到深度学习方法的巨大潜力。此后,卷积神经网络(CNN)在各种与计算机视觉相关的领域得到了广泛应用,如医学图像分析、机器人导航和图像字幕生成等,显著提升了计算机视觉系统的能力和性能。
2. 常见深度学习算法对比
2.1 常见算法概述
以下是几种常见深度学习算法的对比:
| 参数 | 受限玻尔兹曼机(RBM) | 深度信念网络(DBN) | 自动编码器 | 卷积神经网络(CNN) | 循环神经网络(RNN) | 长短期记忆网络(LSTM) |
| — | — | — | — | — | — | — |
| 算法描述 | 属于基于能量模型的无监督神经网络,是两层浅层神经网络,是深度信念网络的构建块 | 由多个无监督受限玻尔兹曼机堆叠而成的网络模型 | 将多维数据转换为低维数据的算法 | 具有执行卷积操作隐藏层的流行深度学习算法 | 使用序列或时间序列数据的网络 | 一种特殊的 RNN,擅长捕捉和学习数据中的长期依赖关系 |
| 学习类型 | 无监督 | 有监督 | 无监督 | 有监督 | 有监督 | 有监督 |
| 主要任务(应用) | 模式识别和推荐引擎特征提取 | 识别、聚合、生成图像、视频序列
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



