
深度学习
文章平均质量分 59
Doooer
这个作者很懒,什么都没留下…
展开
-
学习词向量from Sebastian Ruder
参考http://ruder.io/word-embeddings-1/无监督学习得到的词向量在NLP任务中取得巨大成功。而且近两年ACL和EMNLP会议上有关词向量的文章特别多,甚至有人调侃Embedding Methods in Natural Language Processing更适合EMNLP。简单来说,词向量是单词在低维空间的稠密表示。主要讲神经词向量,即词向量是由神经网络学到的...原创 2018-10-11 20:53:33 · 598 阅读 · 0 评论 -
语言模型
参考https://web.stanford.edu/class/cs124/lec/languagemodeling.pdf评价标准:Perplexity最小化困惑度等价于最大化句子概率在n-gram模型中,Laplace平滑是不可缺少的一步。因为给定一个句子,它的n-gram并没有在训练集中出现过,那么此时会出现乘0操作。Add-one estimation,亦称Laplace ...原创 2018-10-12 09:06:06 · 196 阅读 · 0 评论 -
对深度可分离卷积、分组卷积、空洞卷积、转置卷积的理解
参考:https://blog.youkuaiyun.com/chaolei3/article/details/79374563https://blog.youkuaiyun.com/jiachen0212/article/details/78548667https://blog.youkuaiyun.com/u014722627/article/details/60574260https://blog.youkuaiyun.com/L...原创 2018-10-09 10:11:40 · 5110 阅读 · 5 评论 -
词向量技术(从word2vec到ELMo)以及句嵌入技术
很好的资料https://www.jianshu.com/p/a6bc14323d77转载 2018-11-06 20:32:17 · 1715 阅读 · 0 评论 -
神经语言模型
模型的目的是训练一个神经语言模型,即给定n-1个单词,预测第n个单词是什么。词向量是过程中得到的副产品。模型说明:step1: 矩阵C是V×d,也就是上面提到的词向量矩阵。每一个用one-hot表示的单词投影到其对应的词向量。然后拼接起来得到XXX,XXX的维度是d(n−1)d(n-1)d(n−1)step2: tanh(XW+b)tanh(XW+b)tanh(XW+b), WWW是d(n...原创 2018-11-27 20:11:18 · 939 阅读 · 0 评论 -
FastText
fasttext有两个功能:训练词向量文本分类训练词向量和word2vec不同的地方在于,增加了字符的n-gram表示(词的内部构造信息),因此fasttext对罕见词,OOV都是非常有利的文本分类和word2vec不同的地方在于,1)输入的是整个句子,预测的是句子的类别 2)增加了字符的n-gram表示 3)增加了单词的n-gram表示 4)fasttext是监督学习[1] h...原创 2018-11-27 23:45:17 · 297 阅读 · 0 评论 -
Dropout与DropConnect
为了防止模型过拟合,dropout是一种trick,之前提到Batch Normalization的使用可以不必再使用dropout,但是我们还是有必要温习下什么是dropout。Dropoutdropout在全连接层使用。在训练阶段,对于每个节点,以p概率将其输出值保留,以1-p概率将其输出值乘以0。在测试阶段,输出结果要乘以p。原因是:保持训练阶段和测试阶段的期望值相同。训练阶段,对于每个...原创 2019-02-02 20:28:47 · 3417 阅读 · 2 评论 -
不止Batch Normalization
这次想总结一下神经网络中的各种normalization。Batch NormalizationLayer NormalizationInstance NormalizationGroup NormalizationBN为什么提出BN? 深度神经网络随着网络深度的加深,训练起来越来越困难,收敛越来越慢。我们看一下论文题目:《Batch Normalization: Acceler...原创 2019-01-29 20:51:25 · 235 阅读 · 0 评论 -
LSTM和GRU
GRU和LSTM都是为了处理RNN梯度消失问题而设计的,可以学习到长距离依赖。原创 2019-02-27 14:46:04 · 360 阅读 · 0 评论 -
RNN
首先通过一个例子说一下语言模型: RNN优点:可以处理任意长度的输入weights在所有时刻都是共享的可以利用前面时刻的信息RNN缺点: 1. 耗时,无法并行 2. 实际中,很难利用前面很远时刻的信息RNN公式: ht=tanh(Whht−1+Weet+b1)ht=tanh(Whht−1+Weet+b1)h_t = tanh (W_hh_{t-1} + W_...原创 2018-07-26 22:51:33 · 298 阅读 · 0 评论 -
CBOW和Skip-Gram
Skip-gram模型:http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/A number of tweaks to make training feasible: http://mccormickml.com/2017/01/11/word2vec-tutorial-part-2-negative...原创 2018-07-15 21:05:13 · 481 阅读 · 0 评论 -
梯度爆炸的解决方法:Gradient Clipping
随着神经网络层数的增多,会出现梯度消失或梯度爆炸问题。原因可以参考之前写过的文章。针对梯度爆炸问题,解决方案是引入Gradient Clipping(梯度裁剪)。通过Gradient Clipping,将梯度约束在一个范围内,这样不会使得梯度过大。在tensorflow 文档中,可以看到Gradient Clipping板块有五个函数。这里,我们仅仅介绍其中两个:tf.clip_by_no...原创 2018-07-07 23:59:47 · 7680 阅读 · 0 评论 -
softmax VS softmax-loss:数值稳定性
参考:http://freemind.pluskid.org/machine-learning/softmax-vs-softmax-loss-numerical-stability/ The softmax loss layer computes the multinomial logistic loss of the softmax of its inputs. It’s conceptua转载 2017-12-18 14:29:27 · 1986 阅读 · 0 评论 -
深度学习
周老师主题演讲《关于深度学习的思考》 https://mp.weixin.qq.com/s/C5Xq2P5v3lGmFOivJ_PTzw 如今为什么能够使用很深的模型,主要是以下三点:大量的数据很强的计算设备大量的训练复杂模型的技巧将网络变宽可以增加模型复杂度: 只需一个包含足够多神经元的隐层,前馈神经网络就能以任意精度逼近任意复杂度的连续函数。 【Hornik et a...原创 2018-05-15 19:13:29 · 284 阅读 · 0 评论 -
激活函数从Sigmoid到各种Relu
在神经网络中,我们使用非线性激活函数,如果采用的是线性激活函数,则还是等价于上一步进行的线性变化,网络再深,也和一层是等价的。 - sigmoid: 11+e−x11+e−x\frac{1}{1+e^{-x}} - tanh: ex−e−xex+e−xex−e−xex+e−x\frac{e^x-e^{-x}}{e^x+e^{-x}} - relu: max(0,x)max(0,x)...原创 2019-02-11 22:11:35 · 2151 阅读 · 0 评论 -
梯度消失和梯度爆炸
对神经网络的优化过程,采用的是反向传播算法(Back Propagation Algorithm),其本质又是链式求导法则。 我们举一个简单的例子:下面是每层只有一个神经元的多层网络 在前向传播中,任意一个神经元jjj的输入是aj−1aj−1a_{j-1},其对应的输出是aj=σ(aj−1wj+bj)aj=σ(aj−1wj+bj)a_j=\sigma(a_{j-1}w_j+b_j), 其中...原创 2018-05-16 09:01:20 · 359 阅读 · 0 评论 -
深度神经网络之初始化
参考: https://www.leiphone.com/news/201703/3qMp45aQtbxTdzmK.html在深度神经网络中,权重的初始化十分重要,对模型的收敛速度和模型质量有重大的影响。首先,来一个宏观的认识。在Relu激活函数的网络里,推荐使用Xavier Initialization的变种。 以全连接层中的权重为例:import numpy as npW = ...原创 2018-06-24 21:49:36 · 589 阅读 · 0 评论 -
Transformer
强烈推荐:https://jalammar.github.io/illustrated-transformer/ 特点: 简单明了,清晰易懂。对Transformer里的self-attention(multi-head), positional encoding这些concepts有一个基本的认识。 缺点:具体细节仍需要进一步阅读其他资料。更进一步: 未完…...原创 2018-06-30 09:47:19 · 11502 阅读 · 2 评论 -
NLP's ImageNet moment has arrived ----Sebastian Ruder
今天在机器之心发表了一篇文章,名为《NLP领域的ImageNet时代到来:词嵌入「已死」,语言模型当立》https://mp.weixin.qq.com/s/VOyJu8FBIK91MsumCBaMyg原文来自Sebastian Ruder https://thegradient.pub/nlp-imagenet/阅读后,着实让人期待和振奋! 对于NLP,微调技术会和CV有些区别。Se...原创 2018-07-09 15:11:19 · 611 阅读 · 0 评论 -
Glove词向量资料
很棒的资料:https://blog.youkuaiyun.com/coderTC/article/details/73864097J=∑Nijf(Xij)(vTivj+bi+bj−log(Xij))2J=∑ijNf(Xij)(viTvj+bi+bj−log(Xij))2J = \sum_{ij}^N f(X_{ij})(v_i^Tv_j + b_i + b_j - log(X_{ij}))^2Glo...原创 2018-07-24 23:07:44 · 1317 阅读 · 0 评论 -
注意力模型
好记性不如烂笔头,现在整理一下attention model的各种类型。什么是attention一句话来说,attention是一个加权求和,重点是如何计算权重。我们有一个query向量(包含比较多信息的全局向量),一段key向量,利用query对所有key进行加权求和。背景在nlp领域,首先将attention用于机器翻译,显然,在进行翻译的时候,会关注不同的原文信息。具体来说,在机器...原创 2019-03-03 17:58:23 · 1521 阅读 · 0 评论