深度学习基本概念
结构
基石
- 线性回归:基于线性映射关系的数据,找到其中的映射关系。最基本,最简单。无法描述复杂关系,所以需要添加非线性的映射关系。
- 神经网络:将非线性的映射关系叠加起来。输入是一维信息,各个层级之间进行的是简单的代数运算。经过非线性激励,形成新的神经网络。
以上还没有涉及到深度学习的内容
发展
- CNN:使用卷积核代替原有的简单代数运算。主要应用于图像处理,卷积核属于二维运算单位。神经网络到CNN,从一维到二维,是空间上的转换。
- 目标检测
- 安防摄像头
- 自动驾驶
- 目标分类
- 人脸识别、物品识别、场景识别、文字识别。
- 增强学习:模仿人类学习的一种模型,不停收到外界传入反馈,生成决策。
- 围棋、德州扑克、自动游戏
- 对抗网络:生成网络+判别网络,无监督学习。生成网络,负责生成图片,判别网络,负责判断图片的质量。最后可以生成两个成型的module。这种网络不需要特别多的数据,而且可以产生数据。
- 无限数据
- 目标检测
- RNN:由于某些一维信息是有时间联系的,比如上下文关系。将前一刻的输出,作为下一刻的输入。通过持续递归的方式找到前后文之间的关系。但上一刻的信息不断递归的时候,会进行衰减。某些初始信息还非常重要,就需要一个记忆封存的结构。
- LSTM:在RNN的基础上,添加记忆封存结构GATE,会根据输入的信息判断哪些信息是需要提前记下来的。在后续处理的时候,可以选择不要的释放。
- LSTM卷积化
- 两者结合:
- 图片标注
- 看图说话
- 语句生成
- 自动翻译
- 只能对话系统
- 视频分类
- 视频搜索
- 图片标注
运算逻辑
- 线性回归:
- 梯度下降法
- 非线性激励
- 神经网络
- 神经元(线性运算+非线性激励)
- 卷积神经网络CNN(神经网络+卷积核)
- 一层到下一层会有很多个卷积核,每一个卷积核生成一张图片,所有图片叠在一起的厚度,就是卷积核的个数。
- CNN的局限性:
- 没有记忆,只对单张图片有效。
- 视频处理的时候,多帧动作关联,但是在CNN中,只能每一帧重新计算,无法学习前后关系。
- 递归神经网络RNN