- 博客(6)
- 收藏
- 关注
原创 论文学习笔记 - Character-Level Language Modeling with Deeper Self-Attention
1 相关工作 语言模型有word-level(词级)和character-level(字符级)等,word-level语言模型通常在词序列的基础上建模,而character-level语言模型通常是在字符序列的基础上建模。Word-level语言模型会遇到OOV(out of vocabulary)问题,即词不在词表中的情况,而character-level语言模型则不会出现此问题。2 ...
2019-12-22 15:16:59
1001
原创 论文学习笔记 - Language Models with Transformers
1 相关工作语言模型主要是基于RNN和Transformer两种。在Transformer提出以前,RNN及其相关变体如LSTM等,一直是语言建模方面的中流砥柱。而Transformer的出现改变了这一状况。Transformer由于没有循环结构,在处理文本这类序列数据时要比循环结构的RNN高效。2 解决问题但是随着NLP的发展,模型容量越来越大,层越来越深,参数越来越多,要训练一个优...
2019-06-30 16:26:31
641
原创 论文学习笔记-t-SNE-1
在机器学习任务中,通常情况下,数据具有很高的维度,直接展示数据的分布情况很困难,可通过统计分析数据的分布情况来了解数据。统计分析概率分布固然好,也仅仅是个抽象的表示,始终不能对数据有个直观的认识。数据可视化通过降维,在低维空间直观展示数据,大大促进对数据的认识。t-SNE(t-Distribution Stochastic Neighbor Embedding)是在SNE(Stochastic...
2019-06-02 17:06:55
1831
原创 论文学习笔记-Batch Normalization-1
Batch normalization对数据进行标准化,标准化之后数据的均值为0,方差为1。Batch normalization是解决神经网络中的内部单元的internal covariate shift问题。 Internal covariate shift,由于网络参数变化,输入变化等原因,造成网络内部状态发生偏移,导致激活函数的输入在饱和区域,或者激活函数关于其输入的导数接近于0...
2019-04-27 15:15:02
210
原创 论文学习笔记 - BIRNN - 1
单向RNN(forward和backward)只利用了序列数据其中一个方向的信息(left-to-right或者right-to-left),信息量不够,在很多任务中往往达不到性能要求。要想提高模型性能就要尽可能多的利用数据信息,该如何利用序列两个方向上的信息?至少有2种方式可以利用序列数据两个方向上的信息,一是merge两个不同方向的RNN,二是BiRNN。Merge Merge是...
2019-04-14 11:11:29
1225
原创 论文学习笔记 - BERT - 1
BERT(Bidirectional Encoder Representations from Transformers)是一种自然语言表示模型。BERT是基于上下文信息的深度双向表示模型,通过预训练,可得到文本的深度双向表示。BERT网络结构BERT的模型结构图如下。BERT的每一层都利用了文本预料的上下文信息。其基本结构是Transformer,将其深度堆叠,通过类似全连接网络...
2019-03-16 11:38:29
353
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人