【文献笔记】Deep Learning_LeCun_深度之眼

本文介绍了深度学习的基本概念,包括用多层神经网络进行复杂功能表示,以及监督学习中的反向传播算法。重点讨论了卷积神经网络在图像理解和语言建模中的应用,循环神经网络的结构和功能,以及深度学习的未来方向,如非监督学习、强化学习和自监督学习。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《深度学习》文献笔记_from 深度之眼paper班

1.论文结构

  • 1 引言

  • 2 监督学习

  • 3 反向传播算法

  • 4 卷积神经网络

  • 5 基于深度卷积神经网络的图片理解

  • 6 分布表示和语言模型

  • 7 循环神经网络

  • 8 深度学习的未来

2.前期知识储备

机器学习算法、RNN结构和原理、CNN结构和原理

3.内容梳理

1.1 引言

深度学习:用多层神经网络找到一个函数,函数可以被学习,并表示复杂功能,如语音识别、图像识别。

深度学习应用:

  • 计算机视觉

  • 自然语言处理

  • 其他:医学影像分析等

1.2 监督学习

通过计算一个目标函数,测量出分数与所需分数之间的误差,模型通过BP反向传播算法修改内部参数,减少误差。该参数即权重,可视为机器内数以亿记的旋钮。

  • 反向传播算法:通过梯度下降调节参数。

1.3 反向传播算法

(1)链式求导法则

x对y的变化和y对z的变化。

(2)前向传播

(3)反向传播

计算每个单元输出的误差导数,误差从一个单元反向传播到每一层,最终到输入层,传播过程调整参数。这就是学习过程。

1.4 卷积神经网络

  • 一个神经元无法看到整张图片,卷积核扫描图像中不同区域。

  • 单层神经网络可以表示任何函数(2017年数学已经证明)CNN可以大量减少参数

1.5 基于深度卷积神经网络的图片理解

CNN提取图片信息,RNN训练生成语句描述图片关注信息。

1.6 分布表示和语言模型

(1)Embedding概念

传统方法one-hot独热编码,word-embedding将词映射到向量空间,相似含义词句可以在一起表示。

(2)word2vec

给定input词,预测上下文。得到2组数据,input word和output word训练,最终得到输出向量。

1.7 循环神经网络

(1)RNN特点:

  • RNN在每个时间点连接参数值,参数只有一份

  • 神经网络除了输入,还会建立以前的“记忆“

  • 理解为:带有存储功能的神经网络

(2)LSTM-长短记忆网络

  • 比普通RNN有更好表现

  • 有4个输入(3个gate)1个输出

1.8 深度学习的未来

  • 非监督学习

  • 强化学习

    • 不需要出现正确的输入-标签对,更专注在线规划,需要在探索(未知领域)和开发(现有知识)间找到平衡,学习过程是智能体不断和环境交互,不断试错的反复练习过程。

    • RL不同于监督学习,因没有监督者,只有一个奖励信号并且反馈是延迟的,因此时间序列在RL有重要意义。

  • GAN生成对抗网络

    • 核心思想:博弈论和纳什均衡

    • 生成器和判别器:分别学习真实数据分布、判别数据是否来自真实数据分布,寻找2者间纳什均衡

  • 自监督学习

    • 一切都在预测,现在预测未来、部分预测整体、未来预测(修正)现在。

    • 出处:2018Bert模型,自监督学习提升模型。

    4.IDEA

    开山性综述论文,重点标黄,可以按照文章结构作为学习路线,进一步了解NN/CNN/RNN/LSTM/RL等具体知识

### 关于梯度下降算法的参考文献与学术资料 梯度下降是一种广泛应用的优化方法,在机器学习领域中占据重要地位。以下是关于梯度下降及其相关优化方法的一些经典参考文献和书籍推荐: #### 经典书籍 1. **《Pattern Recognition and Machine Learning》 by Christopher M. Bishop** - 这本书提供了对梯度下降和其他优化技术的基础介绍,适合初学者理解其基本概念[^3]。 2. **《Deep Learning》 by Ian Goodfellow, Yoshua Bengio, Aaron Courville** - 该书详细讨论了深度学习中的各种优化算法,包括梯度下降的不同变体(如批量梯度下降、随机梯度下降以及小批量梯度下降),并分析了它们的优点和局限性[^4]。 3. **《Machine Learning: A Probabilistic Perspective》 by Kevin P. Murphy** - 此书中涵盖了概率视角下的机器学习理论,并深入探讨了梯度下降作为主要优化工具的作用[^5]。 #### 学术论文 1. **“Efficient BackProp” by Yann LeCun et al., 1998** - 论文中不仅介绍了反向传播算法的工作机制,还涉及到了如何有效利用梯度信息来进行参数调整的方法[^6]。 2. **“On the importance of initialization and momentum in deep learning” by Ilya Sutskever et al., ICML 2013** - 文章研究了动量项对于加速收敛过程的重要性,并提出了改进版SGD+Momentum策略的有效性验证实验数据支持结论[^7]。 3. **“Adam: A Method for Stochastic Optimization” by Diederik P Kingma & Jimmy Ba, ICLR 2015** - 提出了自适应矩估计(Adaptive Moment Estimation),即Adam算法,它结合了一阶和二阶梯度的历史统计特性来自动生成每一步的学习率调节方案,从而提高了训练效率[^8]。 #### 在线资源 - **CS231n Convolutional Neural Networks for Visual Recognition (Stanford University)** 课程笔记中有专门章节讲解各类梯度下降法的实际应用案例及性能比较图表展示效果差异显著之处[^9]。 - **UFLDL Tutorial (Unsupervised Feature Learning and Deep Learning tutorial from Stanford)** 提供了一个较为系统的入门指南,帮助读者掌握从基础到高级的各种神经网络构建技巧其中包括详细的GD说明部分[^10]。 以上列举的内容均为经过时间考验的经典材料或者近年来影响力较大的研究成果,能够为希望深入了解梯度下降及相关主题的人士提供坚实的知识背景支撑。 ```python # 示例代码片段:简单的梯度下降实现 def gradient_descent(x_start, learn_rate, num_iterations): x = x_start history = [] for _ in range(num_iterations): grad = compute_gradient(x) # 假设已定义好计算梯度的函数 x -= learn_rate * grad # 更新规则 history.append(x) return history def compute_gradient(x): # 定义一个简单的一维函数 f(x)=x^2 的梯度 return 2*x # 对应的解析解 df/dx=2x gradient_history = gradient_descent(-5, 0.1, 100) print("Gradient Descent History:", gradient_history[-1]) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值