
深度学习
guohui_0907
这个作者很懒,什么都没留下…
展开
-
深度学习中梯度下降优化算法
1 随机梯度下降 最原始的随机梯度下降算法主要依据当前梯度∂L/∂w乘上一个系数学习率α来更新模型权重w的。wt+1=wt−α∂L∂wtw_{t+1}=w_t-\alpha \frac{\partial L}{\partial w_t}wt+1=wt−α∂wt∂L2 动量算法(Momentum)&nb...原创 2019-08-13 14:05:31 · 349 阅读 · 0 评论 -
L1,L2正则化
正则化就是结构风险最小化策略的实现,是在经验风险最小化的情况下加入一个正则化项或者罚项。经验风险最小化策略在小数据集下是不可靠的容易产生过拟合,这时就需要结构风险策略。1 L1正则化 L1正则化是指权值向量w中各个元素的绝对值之和...原创 2019-08-22 16:56:26 · 218 阅读 · 0 评论 -
交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离
1 信息量 任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同。如昨天下雨这个已知事件,因为已经发生,既定事实,那么它的信息量就为0。如明天会下雨这个事件,因为未有发生,那么这个事件的信息量就大。从上面例子可以看出信息量是一个与事件发生概率相关的概念,而且可以得出,事件...原创 2019-08-21 15:38:38 · 601 阅读 · 0 评论 -
LSTM为什么可以缓解梯度消失
1 LSTM问什么可以缓解梯度消失 首先要明确的一点是,LSTM并不能完全解决梯度消失的问题,仅仅只是缓解。 原始的LSTM是没有遗忘门的,所以CtC_tCt的更新如下:Ct=Ct−1+it∗C^tC_t=C_{t-1}+i_t...原创 2019-08-23 10:30:35 · 7355 阅读 · 2 评论 -
中文分词的方法
中文分词主要有两个类别:本别是基于字词典分词算法和基于统计的机器学习算法,下面依次介绍这两种方法。1 基于词典分词算法 也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,...原创 2019-08-14 09:38:42 · 1252 阅读 · 0 评论 -
N-gram介绍
1、简介N-gram是一种基于统计的语言模型,常常用来做句子相似度比较,句子合理性判断。(语言模型就是用来计算一个句子的概率的模型,也就是判断一句话是否合理的概率,RNN是神经语言模型)N-Gram是基于一个假设:第n个词出现的概率与前n-1个词相关,而与其他任何词不相关。因此整个句子出现的概率就等于各个词出现的概率的乘积。各个词的概率可以通过语料中统计得到。假设句子TTT是有词序列w1,w2...原创 2019-05-20 20:58:07 · 2351 阅读 · 0 评论 -
激活函数
1、Softmax vs. k 个sigmoid分类器 这一选择取决于你的类别之间是否互斥,例如,如果你有四个类别的音乐,分别为:古典音乐、乡村音乐、摇滚乐和爵士乐,那么你可以假设每个训练样本只会被打上一个标签(即:一首歌只能属于这四种音乐类型的其中一种),此时你应该使用类别数 k = 4 的softmax回归。...原创 2019-07-04 12:26:25 · 551 阅读 · 0 评论 -
fasttext介绍
1、字符级别的n-gram word2vec把语料库中的每个单词当成原子的,它会为每个单词生成一个向量。这忽略了单词内部的形态特征,比如:“apple” 和“apples”,两个单词有较多公共字符,即它们的内部形态类似,但是在传统的word2vec中,这种单词内部形态信息因为它们被转换成不同的id丢失了。&nbs...原创 2019-07-04 14:25:42 · 881 阅读 · 1 评论 -
Word2Vec、Glove
1、cbow与skip-gram的比较 在cbow方法中,是用周围词预测中心词,从而利用中心词的预测结果情况,使用GradientDesent方法,不断的去调整周围词的向量。要注意的是, cbow的对周围词的调整是统一的:求出的gradient的值会同样的作用到每个周围词的词向量当中去。可以看到,cbow预测行为的...原创 2019-07-04 20:28:59 · 359 阅读 · 0 评论 -
beam search
1、简述  beam search只在test的时候需要。训练的时候知道正确答案,并不需要再进行这个搜索。 test的时候,假设词表大小为3,内容为a,b,c。beam size是2 &nbs...原创 2019-07-09 22:00:06 · 462 阅读 · 0 评论 -
Attention,Transformer,BERT,XLNet,Transformer-XL
1 传统的词向量的缺点 传统Word Embedding的预训练表示是上下文无关的,例如word2vec,在训练好词向量之后不能表示多意单词,例如:bank deposit(银行) VS river band(岸边)2 什么是BERT &nb...原创 2019-07-22 15:14:00 · 737 阅读 · 0 评论 -
ELMO
1 本质思想 ELMO的基本思想是利用双向的LSTM结构,对于某个语言模型的目标,在大量文本上进行预训练,从LSTM layer中得到contextual embedding,其中较低层的LSTM代表了比较简单的语法信息,而上层的LSTM捕捉的是依赖于上下文的语义信息。ELMO的全称就是Embeddings fro...原创 2019-07-24 10:48:04 · 382 阅读 · 0 评论 -
GPT和GPT2.0
1 面临的挑战尚不清楚哪种类型的优化目标在学习对迁移有用的文本表示方面最有效。将这些学习的表示迁移到目标任务的最有效方法没有达成共识。2 方法介绍 针对各种语言理解任务,论文介绍了一种半监督的学习方法,它包含无监督的预训练阶段和监督的微调阶段。这种方法的目标是将预训练阶段学习到的通用表示迁移到具体的任务中...原创 2019-07-29 10:58:14 · 468 阅读 · 0 评论 -
Batch Normalization和Layer Normalization
1 对比BN是在batch上,对N、H、W做归一化,而保留通道 C 的维度。BN对较小的batch size效果不好。BN适用于固定深度的前向神经网络,如CNN,不适用于RNNLN在通道方向上,对C、H、W归一化,主要对RNN效果明显; 如果把特征图[公式]比喻成一摞书,这摞书总共有 N 本,每本有 C 页...原创 2019-07-30 10:56:54 · 764 阅读 · 0 评论 -
自然语言处理中数据清理的步骤
1.小写转换和标点移除,视具体情况而定。2.将每个句子拆分成一系列的单词。3.清除停用词,停用词也是视具体情况而定。4.将单词还原为原来的表示(词干化)。...原创 2019-08-06 16:22:09 · 722 阅读 · 0 评论 -
自然语言中的评价指标
1 Perplexity公式如下所示:PPL(S)=P(w1w2...wN)−1NlogPPL(S)=−logP(w1w2...wN)N=−∑i=1NlogP(wi∣w2...wi−1)NPPL(S)=P(w_1w_2...w_N)^{-\frac{1}{N}}\\logPPL(S)=\frac{-logP(w_1w_2...w_N)}{N}=\frac{-\sum_{i=1}^{N}log...原创 2019-08-12 11:05:09 · 801 阅读 · 0 评论 -
CNN中的感受野的计算,参数量计算
参考原创 2019-10-06 21:10:50 · 246 阅读 · 0 评论