
阅读论文
姬香
人生到处知何似,应似飞鸿踏雪泥
展开
-
阅读论文《Difficulty Controllable Generation of Reading Comprehension Questions》
这篇论文实现了不同难度问题的文本生成,即输入阅读理解的句子,生成规定难度的问题。实验结果通过BLEU指标评估,并且还要符合规定的难度标签。Encoder 编码器用的是双向的LSTM。论文定义两个查找表,position embedding 分别是容易类:,困难类:Decoder 解码器用的是Attention机制和Copy机制,其中创新点在于全局难度控制。首先使用难度...原创 2019-10-18 00:01:09 · 587 阅读 · 0 评论 -
Encoder-Decoder架构与注意力机制
Encoder-Decoder架构模型,如下图:Encoder会利用整个原始句子生成一个语义向量,Decoder再利用这个向量翻译成其它语言的句子。这样可以把握整个句子的意思、句法结构、性别信息等等。Encoder对X 进行非线性变换得到中间语义向量c :Decoder根据语义c 和生成的历史单词来生成第个单词 :Encoder和Decoder具体使用什么模型,都可以自己...原创 2019-07-14 00:08:15 · 7993 阅读 · 0 评论 -
从n-gram到Bert聊一聊词向量:神经概率语言模型
神经网络语言模型NNLM:论文:Bengio, Yoshua, et al. "A neural probabilistic language model." http://jmlr.org/papers/volume3/bengio03a/bengio03a.pdf目标是学一个好的模型 ,分解函数为两个部分:一是V中任何元素i到实数向量的映射C,C表示与词汇表中的每个单词相关联的分...原创 2019-07-16 17:25:23 · 992 阅读 · 0 评论 -
从n-gram到Bert聊一聊词向量(一):n-gram
一元语法二元语法对于一个句子,近似认为一个词的概率只依赖于它前面的1个词。即一个状态只跟上一个状态有关,也称为一阶马尔科夫链。假设 表示二元语法在给定文本中的出现次数,三元语法n元语法认为一个词出现的概率和它前面的n个词有关系,一般取n=2或者n=3。其概率计算公式为如下:对于n>2的n元语法模型,条件概率要考虑前面n−1个词的概率,设wji表...原创 2019-03-20 14:38:33 · 1599 阅读 · 0 评论 -
激活函数的性质、表达式及其优劣:Sigmoid -> Tanh -> ReLU -> Leaky ReLU 、PReLU、RReLU 、ELUs-> Maxout
激活函数的性质1. 非线性:即导数不是常数。保证多层网络不退化成单层线性网络。这也是激活函数的意义所在。2. 可微性:可微性保证了在优化中梯度的可计算性。传统的激活函数如sigmoid等满足处处可微。对于分段线性函数比如ReLU,只满足几乎处处可微(即仅在有限个点处不可微)。对于SGD算法来说,由于几乎不可能收敛到梯度接近零的位置,有限的不可微点对于优化结果不会有很大影响。3. 计算简...原创 2019-07-11 19:59:37 · 7715 阅读 · 0 评论 -
从n-gram到Bert聊一聊词向量:Word2Vec
Word2Vec模型中有CBOW和Skip-Gram两种模式:CBOW(多到一)是给定上下文来预测输入单词,训练方法为负采样Skip-Gram(一到多)是给定输入单词来预测上下文,训练方法为哈夫曼树训练步骤:1.将输入的文本生成词汇表,统计词频选择前k个构成词汇表 vocab.txt。每个词对应生成one-hot向量,向量的维度是V2.将输入的文本的每个词生成一个one-...原创 2019-07-14 00:06:03 · 1678 阅读 · 0 评论 -
《Attention is All You Need》论文理解Transformer
谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Attention is All You Need:https://arxiv.org/abs/1706.03762Tensorflow:https://github.com/tensorflow/tensor2tensorPytorch代码:http://nlp.seas.harvard.edu/2018...原创 2019-07-14 00:07:23 · 1634 阅读 · 0 评论 -
最优化方法总结:公式解、数值优化、求解思想
机器学习的目标是给出一个模型(一般是映射函数),然后定义对这个模型好坏的评价函数(目标函数),求解目标函数的极大值或者极小值,以确定模型的参数,从而得到我们想要的模型。在这三个关键步骤(定义模型,目标函数,求解极值)中,前两个是机器学习要研究的问题,建立数学模型。第三个问题是纯数学问题,即最优化方法。机器学习要求解的数学模型1.有监督学习:目标函数的极值对于有监督学习,我们要找到一...原创 2019-07-03 18:23:03 · 17776 阅读 · 1 评论 -
文本生成的论文追溯:Seq2seq,VAE,GAN
Seq2seq《Recent Advances on Neural Headline Generation》 JCST 2017《A Neural Conversational Model》 ICML 2015《Topic Aware Neural Response Generation》 AAAI 2017《A persona-Based Neural Conversation...原创 2019-03-20 15:07:00 · 1598 阅读 · 0 评论