
文本生成
文章平均质量分 96
林ch
这个作者很懒,什么都没留下…
展开
-
Seq2Seq文本生成与tensorflow实现
1.引言 近年来,深度神经网络在很多任务上都取得了不错的成绩,比如文本分类、图像识别等等,但是我们知道,像DNN神经网络结构只能解决一些分类或回归问题,而很多日常的任务却是一个序列到一个序列的映射问题,比如语音识别、机器翻译、对话系统等等,他们的输入和输出都是边长,而DNN要求输入和输出都是固定维度的,因此,这时需要引入新的结构,才能解决这种序列到序列的生成问题。2014年,谷歌提出了...原创 2019-04-28 11:35:16 · 3098 阅读 · 0 评论 -
常见注意力机制原理介绍与对比
1. 引言 自从2014年Seq2Seq提出以来,神经机器翻译取得了很多的进展,但是大部分模型都是基于encoder-decoder的结构,这就要求encoder对于输入序列的编码能力要足够强,才能确保得到的输入序列的上下文向量能够尽可能地保留输入序列的信息。而我们知道,随着句子的长度逐渐变长,上下文向量的表达能力其实是会逐渐下降的,因为它没法完全保留输入序列的大部分信息。因此,为了克服...原创 2019-02-13 21:03:00 · 20532 阅读 · 2 评论 -
摒弃encoder-decoder结构,Pervasive Attention模型与Keras实现
1.引言 现有的主流机器翻译模型,基本都是基于encoder-decoder的结构,其思想就是对于输入句子序列,通过RNN先进行编码(encoder),转化为一个上下文向量context vector,然后利用另一个RNN对上下文向量context vector进行解码(decoder)。其结构如下: 之后,又有学者在该结构的基础上,做了各种改进,其中主要有两方面的改进,一...原创 2018-09-15 17:57:46 · 4213 阅读 · 6 评论 -
如何提高文本生成任务中的文本多样性
1. 引言 前面的文章中我们介绍了文本生成中的经典模型Seq2Seq,虽然该模型在文本生成任务上取得了很大的进步,但是由于其目标函数采用的是极大似然估计,即:1/∣S∣∑(T,S)∈Slogp(T∣S) 1 /|\mathcal{S}| \sum_{(T, S) \in \mathcal{S}} \log p(T | S) 1/∣S∣(T,S)∈S∑logp(T∣S)其中,SSS...原创 2019-05-05 17:58:35 · 5165 阅读 · 1 评论 -
Transformer文本生成与tensorflow实现
1. 引言 前面介绍了文本生成任务中的经典模型——Seq2Seq,以及一些常见的attention机制,虽然在文本生成任务中取得了相当出色的成绩,但是随着数据量的增大和语料长度的增大,RNN固有的序贯性严重阻碍了训练的速度,因此,本文将介绍另一个经典的模型——Transformer,该模型是由谷歌在2017年提出来的模型,模型完全摒弃了RNN和CNN的结构,只采用了attention的机制...原创 2019-05-10 11:04:32 · 13881 阅读 · 10 评论 -
文本生成任务常见评估指标
1. 引言 在传统的文本生成任务中,对于模型生成的文本,往往很难评估他们的质量,一般会采用人工投票的形式,来比较生成的文本和真实的参考文本之间的优劣或接近程度,因此,其评估过程是非常昂贵和耗时的,并且该过程没法重复,当研究人员对模型进行更新之后,又得重新雇人进行评估,或者需要对模型进行部署并实时监控时,也很难实施,因此,文本生成任务需要一个可被计算的数值指标,来衡量模型生成的文本与参考文本...原创 2019-05-16 15:40:55 · 9826 阅读 · 0 评论 -
Layer Normalization原理介绍
1. 引言前面介绍了Batch Normalization的原理,我们知道,BN层在CNN中可以加速模型的训练,并防止模型过拟合和梯度消失。但是,如果将BN层直接应用在RNN中可不可行呢,原则上也是可以的,但是会出现一些问题,因为我们知道Batch Normalization是基于mini batch进行标准化,在文本中,不同的样本其长度往往是不一样的,因此,如果在每一个时间步也采用Batch ...原创 2019-07-23 20:53:58 · 14463 阅读 · 0 评论