
动手学深度学习
小孟Tec
为什么我的眼里常含泪水?
因为我对这土地爱得深沉……
展开
-
DL简介
通俗来说,机器学习是一门讨论各式各样的适用于不同问题的函数形式,以及如何使用数据来有效地获取函数参数具体值的学科。深度学习是指机器学习中的一类函数,它们的形式通常为多层神经网络。近年来,仰仗着大数据集和强大的硬件,深度学习已逐渐成为处理图像、文本语料和声音信号等复杂高维度数据的主要方法。研究者们尝试组建模仿神经元互动的计算电路。随着时间发展,神经网络的生物学解释被稀释,但仍保留了这个名字。时至...原创 2019-05-15 14:09:51 · 384 阅读 · 0 评论 -
深度学习基础
为什么在分类问题中 Loss 一般用交叉熵损失函数(cross entropy) 而不适用类似平方损失函数交叉熵适合衡量两个概率分布的差异为什么需要 非线性的激活函数训练误差(training error)和泛化误差(generalization error)虽然有很多因素可能导致这两种拟合问题,在这里我们重点讨论两个因素:模型复杂度和训练数据集...原创 2019-05-22 22:15:22 · 217 阅读 · 0 评论 -
自然语言处理 Notes
10.3 word2vec 二次采样试图尽可能减轻高频词对训练词嵌入模型的影响。 10.4. 子词嵌入(fastText)10.5. 全局向量的词嵌入(GloVe)在有些情况下,交叉熵损失函数有劣势。GloVe模型采用了平方损失,并通过词向量拟合预先基于整个数据集计算得到的全局统计信息。词嵌入的下游应用:搜索近义词 和 类比词 、文本分类(textc...原创 2019-05-28 00:25:31 · 133 阅读 · 0 评论 -
循环神经网络 Notes
1. 语言模型语言模型(language model)是自然语言处理的重要技术。自然语言处理中最常见的数据是文本数据。我们可以把一段自然语言文本看作一段离散的时间序列。假设一段长度为T的文本中的词依次为,那么在离散的时间序列中,可看作在时间步(time step)t 的输出或标签。给定一个长度为TT的词的序列,语言模型将计算该序列的概率: ...原创 2019-04-14 23:10:52 · 438 阅读 · 3 评论