
动手深度学习
M.〽
这个作者很懒,什么都没留下…
展开
-
动手深度学习 笔记9
Transformer模型利用attention机制实现了并行化捕捉序列依赖,并且同时处理序列的每个位置的tokens,上述优势使得Transformer模型在性能优异的同时大大减少了训练时间。Transformer同样基于编码器-解码器架构,与seq2seq的区别在于:Transformer blocks:将seq2seq模型重的循环网络替换为了Transformer Blocks,该模...原创 2020-02-18 21:21:05 · 347 阅读 · 0 评论 -
动手深度学习 笔记 8
机器翻译和数据集机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。数据预处理将数据集清洗、转化为神经网络的输入minbatch。数据预处理的过程中,我们首先需要对数据进行清洗。分词字符串—单词组成的列表。建立词典单词组成的列表—单词id组成...原创 2020-02-18 21:09:30 · 354 阅读 · 0 评论 -
动手深度学习 笔记 7
循环神经网络进阶GRU(门控循环单元)门控循环神经网络,为了更好地捕捉时间序列中时间步距离较大的依赖关系。其中,门控循环单元(gated recurrent unit,GRU)是一种常用的门控循环神经网络,它引入了重置门(reset gate)和更新门(update gate)的概念,从而修改了循环神经网络中隐藏状态的计算方式。Rt=σ(XtWxr+Ht−1Whr+br)Zt=σ(Xt...原创 2020-02-18 19:48:30 · 141 阅读 · 0 评论 -
动手深度学习 笔记 6
梯度消失和梯度爆炸当神经网络的层数较多时,模型的数值稳定性容易变差。假设一个层数为 L 的多层感知机的第 l 层 H(l) 的权重参数为 W(l) ,输出层 H(L) 的权重参数为 W(L) 。为了便于讨论,不考虑偏差参数,且设所有隐藏层的激活函数为恒等映射(identity mapping) ϕ(x)=x 。给定输入 X ,多层感知机的第 l 层的输出 H(l)=XW(1)W(2)…W(l)...原创 2020-02-18 19:36:25 · 115 阅读 · 0 评论 -
动手深度学习 笔记5
模型选择、欠拟合和过拟合训练误差(training error):指模型在训练数据集上表现出的误差。泛化误差(generalization error):指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。机器学习模型应关注降低泛化误差。模型选择1.验证数据集我们可以预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。这部分数据被称为验证数据集...原创 2020-02-18 18:32:21 · 98 阅读 · 0 评论 -
动手深度学习 笔记 4
1. 文本预先(1)读入文本(2)分词(3)建立字典字典其实与python学习到的字典类似,都是建立列表(token) 与索引(index)之间的映射。使用字典,我们可以将原文本中的句子从单词序列转换为索引序列(4)现有的分词工具spaCy 和 NLTK这两个都是较为成熟的2.语言模型(1)基于统计的语言模型、基于神经网络的语言模型(用于评估一段给定的序列是否合理)n元法:n元...原创 2020-02-14 21:35:29 · 121 阅读 · 0 评论 -
动手深度学习 笔记 3
多层感知机的基本知识多层感知机(MLP,Multilayer Perceptron)也叫人工神经网络(ANN,Artificial Neural Network),除了输入输出层,它中间可以有多个隐层,最简单的MLP只含一个隐层,即三层的结构。ReLU函数ReLU(rectified linear unit)函数提供了一个很简单的非线性变换。可以看出,ReLU函数只保留正数元素,并将负数...原创 2020-02-14 21:31:45 · 156 阅读 · 0 评论 -
动手深度学习 笔记 2
softmax与分类模型softmax回归softmax回归同线性回归一样,也是一个单层神经网络。由于每个输出 o1,o2,o3 的计算都要依赖于所有的输入 x1,x2,x3,x4 ,softmax回归的输出层也是一个全连接层。softmax公式的得出方法大概解释可以解释为:首先假设样本与理论标准函数的误差(类似于线性回归那一章中生成数据时叠加上的高斯误差)服从正态分布(高斯分布),并且不...原创 2020-02-14 21:19:16 · 145 阅读 · 0 评论 -
动手深度学习 笔记 1
第一天多谢伯禹提供了这样一个公益课程,能让我们学到很多。希望在这段时间能够很好的提高自己!第一天的内容主要是 线性回归、softmax与分类模型、多层感知器。线性回归首先导入需要的库,定义初始值。import torchimport time# init variable a, b as 1000 dimension vectorn = 1000a = torch.ones(n...原创 2020-02-14 21:03:13 · 151 阅读 · 0 评论