好心的小明-优快云博客

前面我们介绍了 n 元语法，也就是单词 xtx_txt 在时间步 t 的条件概率仅取决于前面的 n-1 个单词。如果我们想将之前的单词都考虑进去会使得模型参数的数量呈指数增长我们考虑隐变量模型：其中 ht−1h_{t-1}ht−1 是隐状态，也叫隐藏变量，他存储到了时间步 t−1t-1t−1 的序列信息，我们可以根据当前输入 xtx_txt 和先前隐状态 ht−1h_{t-1}ht−1 来计算时间步 t 时的隐状态1. 无隐状态的神经网络多层感知机只要可以随机选择“特征-标签”对

2024-10-26 09:16:00 866

原创【动手学深度学习】8.3 语言模型（个人向笔记）

尽管如此，语言模型依然是非常有用的。例如，短语“to recognize speech”和“to wreck a nice beach”读音上听起来非常相似。这种相似性会导致语音识别中的歧义，但是这很容易通过语言模型来解决，因为第二句的语义很奇怪。同样，在文档摘要生成算法中， “狗咬人”比“人咬狗”出现的频率要高得多，或者“我想吃奶奶”是一个相当匪夷所思的语句，而“我想吃，奶奶”则要正常得多。8.3.1. 学习语言模型

2024-10-19 23:01:52 418

原创【动手学深度学习】8.2. 文本预处理（个人向笔记）

对于序列数据处理问题，我们在 8.1节中评估了所需的统计工具和预测时面临的挑战。这样的数据存在许多种形式，文本是最常见例子之一。例如，一篇文章可以被简单地看作一串单词序列，甚至是一串字符序列。

2024-10-19 21:23:20 441

原创【动手学深度学习】8.1. 序列模型（个人向笔记）

想象一下有人正在看网飞（Netflix，一个国外的视频网站）上的电影。一名忠实的用户会对每一部电影都给出评价，毕竟一部好电影需要更多的支持和认可。然而事实证明，事情并不那么简单。随着时间的推移，人们对电影的看法会发生很大的变化。

2024-10-19 14:42:46 298

原创【动手学深度学习】7.6. 残差网络（ResNet）（个人向笔记）

随着我们设计越来越深的网络，深刻理解“新添加的层如何提升神经网络的性能”变得至关重要。更重要的是设计网络的能力，在这种网络中，添加层会使网络更具表现力，为了取得质的突破，我们需要一些数学基础知识。

2024-10-19 09:29:52 1013

原创【动手学深度学习】7.5 批量规范化（个人向笔记）

训练深层神经网络是十分困难的，特别是在较短的时间内使他们收敛更加棘手。本节将介绍批量规范化（batch normalization） (Ioffe and Szegedy, 2015)，这是一种流行且有效的技术，可持续加速深层网络的收敛速度。再结合在 7.6节中将介绍的残差块，批量规范化使得研究人员能够训练100层以上的网络。

2024-10-18 22:03:13 659

原创【动手学深度学习】7.4 含并行连结的网络(GoogLeNet)（个人向笔记）

- GoogLeNet吸收了NiN中串联网络的思想，并在此基础上做了改进。这篇论文的一个重点是解决了什么样大小的卷积核最合适的问题。- 本文的一个观点是，有时使用不同大小的卷积核组合是有利的。本节将介绍一个稍微简化的GoogLeNet版本：我们省略了一些为稳定训练而添加的特殊特性，现在有了更好的训练方法，这些特性不是必要的。

2024-10-15 10:10:49 582

原创【动手学深度学习】7.3 网络中的网络(NiN)（个人向笔记）

LeNet，AlexNet和VGG都有一个共同的设计模型：通过一系列卷积层和汇聚层来提取空间结构特征，然后通过全连接层对特征的表征进行处理

2024-10-15 09:37:00 984

原创【动手学深度学习】7.2 使用块的网络(VGG)（个人向笔记）

虽然AlexNet证明深层神经网络卓有成效，但它没有提供一个通用的模板来指导后续的研究人员设计新的网络。在下面的几个章节中，我们将介绍一些常用于设计深层神经网络的启发式概念。

2024-10-15 09:08:41 1027

原创【动手学深度学习】7.1 深度卷积神经网络（AlexNet）（个人向笔记）

在LeNet提出后，卷积神经网络在计算机视觉和机器学习领域中很有名气。但卷积神经网络并没有主导这些领域。这是因为虽然LeNet在小数据集上取得了很好的效果，但是在更大、更真实的数据集上训练卷积神经网络的性能和可行性还有待研究。事实上，在上世纪90年代初到2012年之间的大部分时间里，神经网络往往被其他机器学习方法超越，如支持向量机（support vector machines）。

2024-10-14 15:26:51 1087

原创【动手学深度学习】6.6. 卷积神经网络（LeNet）（个人向笔记）

本节将介绍LeNet，它是最早发布的卷积神经网络之一，因其在计算机视觉任务中的高效性能而受到广泛关注。这个模型是由AT&T贝尔实验室的研究员Yann LeCun在1989年提出的（并以其命名），目的是识别图像 (LeCun et al., 1998)中的手写数字。当时，Yann LeCun发表了第一篇通过反向传播成功训练卷积神经网络的研究，这项工作代表了十多年来神经网络研究开发的成果。

2024-10-14 10:01:52 962