Autoencoder as Assistant Supervisor: Improving Text Representation for Chinese Social Media Text Summarization / 自动编码器作为监督器:改进中文社交媒体文本摘要的文本表示方法
Abstract
目前大多数的摘要文本模型都是基于序列到序列的模型(Seq2Seq)。社交媒体的源内容冗长且嘈杂,因此Seq2Seq很难学习到准确的语义表示。与源内容相比,注释摘要短小精悍。此外,它与源内容具有相同的含义。在这项工作中,我们监督学习源内容的表示与摘要的表示。在实现中,我们将摘要自动编码器作为Seq2Seq的监督。在之前的工作基础上,我们在一个流行的中国社交媒体数据集上评估了我们的模型。实验结果表明,该模型在基准数据集上达到了最先进的性能。
🌙what is seq2seq?
首先,补习一下LSTM的知识点。在此之前我们要了解一下RNN网络(循环神经网络),它的结构我感觉有点像编译原理里学过的自动机,反正大概意思就是它的Hidden Layer是S=f(现有的输入+过去记忆总结) ,借此来实现了时间记忆功能。LSTM和GRU是作为RNN的改进版出现的。LSTM可以通过“门”结构来去除或者增加“细胞状态”的信息,实现了对重要内容的保留和对不重要内容的去除。
seq2seq是根据给定的序列,通过特定的方法产生一个新序列。不仅是一句话,扩展来说也可以是图像生成图像字幕,文字生成文字摘要。模型通常包含编码器、解码器、上下文向量三个部分。
1 Introduction
文本摘要是对文本的主要思想进行简要的总结。不同于提取文本摘要(Radev等人,2004;伍德森和拉帕塔,2010;Cheng和Lapata, 2016),从源文本中选择单词或单词短语作为摘要,抽象文本摘要学习语义表示,以生成更接近人工的摘要。目前,大多数抽象文本摘要模型都是基于seq2seq模型的,该模型使用编码器将源文本编码成语义表示,并使用解码器从语义表示生成摘要。
社交媒体上的内容很长,包含很多错误,这些错误来自拼写错误、非正式表达和语法错误(Baldwin et al, 2013)。大量的内容错误给文本的归纳带来了很大的困难。对于基于RNN的Seq2Seq,由于存在梯度消失和爆炸问题,很难将长序列压缩成精确的表示形式(Li et al, 2015)。
这里的梯度消失和BP的不一样,这里主要指由于时间过长而造成记忆值较小的现象。
与源内容相比,更容易编码摘要的表示形式更容易,这些表示形式很短,并且是手动选择的。由于源内容和摘要共享相同的点,可以监督源内容的语义表示与摘要的语义表示的学习。
在本文中,我们将一个摘要自动编码器作为Seq2Seq的监督器。首先,我们训练一个自动编码器,它输入并重构摘要,以获得更好的表示来生成摘要。然后,我们通过最小化两个表示之间的距离来监督Seq2Seq的内部表示与自动编码器的内部表示。最后,我们利用对抗性学习来加强监督。继之前的工作(Ma et al, 2017)之后,我们在一个中国社交媒体数据集上评估了我们提出的模型。实验结果表明,我们的模型优于现有的基线模型。
2 Proposed Model
本节将详细介绍我们提出的模型。
3.1 Notation
给定一个由N个数据样本组成的汇总数据集,第i个数据样本(x_i,y_i)包含了一个源内容x_i={x_1,x_2,...,x_M}和一个摘要y_i={y_1,y_2,...,y_L},M为源词数,L为摘要词数。在训练阶段,我们训练模型在给定源内容x的情况下生成摘要y。在测试阶段,模型在给定源内容x的情况下解码预测的摘要y'。

2.2 Supervision with Autoencoder
图1显示了我们的模型的体系结构。在训练阶段,源内容编码器使用Bi-LSTM编码器将输入内容x压缩到内部表示z_t中。同时,摘要编码器将引用摘要y压缩为表示z_s。然后将z_t和z_s都输入LSTM解码器以生成摘要。最后,源内容的语义表示由摘要监督。
我们通过最小化语义表示z_t和z_s之间的距离来实现监督,损失函数中的这一项可以写成:

其中d(z_t, z_s)是测量z_s和z_t之间距离的函数。λ是一个可调超参数,以平衡监督损失和其他部分的损失,N_h是隐藏单元的数量,以限制距离函数的大小。根据验证集上的性能,我们设置λ = 0.3。两个表示之间的距离可以写成:

2.3 Adversarial Learning
我们以对抗性学习的方式进一步加强监督。如式1所示,我们使用一个固定的超参数λ作为权重来衡量自动编码器的监督强度。但在源内容与摘要相关性高的情况下,监督力度应较高,而在源内容与摘要相关性低的情况下,监督力度应较低。为了更动态地确定监督的强度,我们引入了对抗学习。更具体地说,我们将自动编码器的表示视为“黄金”表示,而将序列到序列的表示视为“假”表示。训练一个模型来区分黄金和假表示,这被称为鉴别器。鉴别器试图识别这两种表示。相反,监督,使表示之间的距离最小化,使它们相似,试图阻止鉴别器做出正确的预测。这样,当鉴别器能够区分两种表示形式(即源内容与摘要相关性较低)时,监督力度就会降低,当鉴别器不能区分时,监督力度就会提高。
在对抗学习的实现中,判别器目标函数可表示为:

其中,是鉴别器将向量z识别为“黄金”表示的概率,
是将向量z识别为“假”表示的概率。
是鉴别器的参数。在鉴别器目标最小化时,我们只训练鉴别器的参数,其余参数保持不变。
针对鉴别器的监督目标函数可以写成:

当监督目标最小化时,我们只更新编码器的参数。
2.4 Loss Function and Training
在我们的模型中,目标函数有几个部分需要优化。
第一部分是seq2seq和自动编码器的交叉熵损失:

第二部分是监督的L2损失,如式1所示。最后是对抗性学习,即公式3和公式4。所有这些部分加起来就是要优化的最终损失函数。
- L1损失函数又称为MAE(mean abs error),即平均绝对误差,也就是预测值和真实值之间差值的绝对值。
- L2损失函数又称为MSE(mean square error),即平均平方误差,也就是预测值和真实值之间差值的平方。
我们使用Adam (Kingma and Ba, 2014)优化方法来训练模型。对于Adam优化器的超参数,我们设置学习率α = 0.001,两个动量参数β1 = 0.9和β2 = 0.999,。我们将梯度(Pascanu et al, 2013)剪辑到最大范数10.0。
3 Experiments
继之前的工作(Ma et al, 2017)之后,我们在一个流行的中国社交媒体数据集上评估了我们的模型。我们首先介绍了数据集、评价指标和实验细节。然后,我们将我们的模型与几个最先进的系统进行比较。
3.1 Dataset
大规模中文社交媒体文本摘要数据集(LCSTS)由Hu等人(2015)构建。该数据集由超过240万对文本摘要组成,构建于著名的中国社交媒体网站新浪微博。它分为三个部分,第一部分有2,400,591对,第二部分有10,666对,第三部分有1,106对。第二部分和第三部分中的所有文本摘要对都是手动标注的,相关分数从1到5不等。我们只保留得分不低于3分的样本,第二部分剩下8685对,第三部分剩下725对。在前面的工作(Hu et al, 2015)的基础上,我们使用PART I作为训练集,PART II作为验证集,PART III作为测试集。
3.2 Evaluation Metric(评价指标)
我们的评价指标是ROUGE评分(Lin and Hovy, 2003),它是常用的总结性评价指标。通过计算重叠的词汇单位(包括unigram、bigram、trigram和最长公共子序列(LCS)),这些指标将自动生成的摘要与参考摘要进行比较。继之前的工作(Rush et al, 2015;Hu et al, 2015),我们在报道的实验结果中使用ROUGE-1 (ungram)、ROUGE-2 (double gram)和ROUGE-L (LCS)作为评价指标。
3.3 Experimental Details
词汇从训练集中提取,源内容和摘要使用相同的词汇。为了减少分词错误的风险,我们将中文句子分成汉字。我们将词汇量削减到4000,这涵盖了大多数常见字符。
我们基于验证集上的ROUGE评分对超参数调优。我们将单词嵌入大小和隐藏大小设置为512,LSTM层数为2。批处理大小为64,我们不使用dropout (Srivastava et al, 2014)。在之前的工作(Li et al, 2017)的基础上,我们实现了光束搜索,并将光束大小设置为10。
3.4 Baselines
我们将我们的模型与以下最先进的几个进行比较。
- RNN和RNN-cont 是由Hu等人(2015)提供的两个序列对序列基线,带有GRU编码器和解码器。两者的区别在于,RNN-上下文具有注意机制,而RNN没有。
- RNN-dist (Chen et al, 2016) 是一种基于注意力分散的神经模型,注意力分散的机制侧重于源内容的不同部分。
- CopyNet (Gu et al, 2016) 包含了一种复制机制,允许从源内容复制生成的摘要的部分内容。
- SRB (Ma et al, 2017) 是一个基于序列对序列的神经模型,改善了输入文本和输出摘要之间的语义相关性。
- DRGD (Li等人,2017) 是一种深度循环生成式解码器模型,将解码器与变分自编码器相结合。
- Seq2seq 是我们对序列到序列模型的实现,带有注意机制,它具有与我们的模型相同的实验设置,以便进行公平比较。
3.5 Results
为了简单起见,我们将使用自动编码器模型的监督标记为superAE。我们报告我们的模型的ROUGE F1得分和测试集上的对比模型。
表1总结了我们的superAE模型和几个对比的结果。我们首先将我们的模型与Seq2Seq进行比较,superAE模型比Seq2Seq在ROUGE-1提高了7.1,在ROUGE-2上提高了6.1,在ROUGE-L上提高了7.0,这证明了我们的模型的效率。此外,我们将我们的模型与最近的摘要系统进行了比较,这些系统都是在相同的训练集和测试集上进行评估的。他们的研究结果直接发表在相关文章中。结果表明,我们的superAE优于所有这些模型,相对增益在ROUGE-1上为2.2,在ROUGE-2上为1.8,在ROUGE-L上为2.0。我们还通过去除对抗性学习部分来进行消融研究,以显示其贡献。结果表明,对抗学习在ROUGE-1上提高了1.5,在ROUGE-2上提高了0.7,在ROUGE-L上提高了1.0。
我们也对模型进行了实例总结。如表3所示,SeqSeq模型捕获了源内容的错误含义,并生成了“中国联合航空公司在机场爆炸”的摘要。我们的superAE模型捕获了正确的点,因此生成的摘要在意义上接近参考摘要。
3.6 Analysis of text representation
我们想分析我们的superAE模型是否改善了内部文本表示。由于文本表示抽象且难以评价,我们利用情感分类器将文本表示转化为情感评分,并通过情感准确率来评价文本表示的质量。
我们在亚马逊精品食品评论语料库上进行了实验(McAuley和Leskovec, 2013)。亚马逊数据集包含用户的评级标签和评论摘要,这使得训练分类器预测情感标签和seq2seq模型生成摘要成为可能。首先,我们训练了superAE模型和seq2seq模型与文本-摘要对直到收敛。然后,我们将编码器转移到一个情感分类器中,并通过固定编码器的参数来训练分类器。分类器是一个简单的前馈神经网络,它将表示映射到标签分布。最后,计算预测的2类和5类标签的准确率。
如表2所示,seq2seq模型在2-class和5-class的准确率分别为80.7%和65.1%。我们的superAE模型表现优于基线,有8.1%和6.6%的较大差距。
4 Related Work
Rush等人(2015)首先提出了一种基于抽象的摘要模型,该模型使用细心的CNN编码器压缩文本,使用神经网络语言模型生成摘要。Chopra等人(2016)探索了抽象摘要的循环结构。为了解决词汇量不足的问题,Nallapati等人(2016)提出了一种生成器-指针模型,使解码器能够在源文本中生成单词。Gu et al(2016)也通过引入复制机制解决了这个问题,允许部分摘要从源内容中复制。参见et al(2017)进一步讨论了这一问题,并将指针-生成器模型与覆盖机制相结合。Hu等人(2015)建立了一个大型中文社交媒体短文本摘要语料库,这是我们的基准数据集之一。Chen等人(2016)引入了一种基于分散注意力的神经模型,该模型迫使注意机制专注于源输入的不同部分。Ma等人(2017)提出了一种神经模型来提高源内容和摘要之间的语义相关性。
我们的工作也与序列对序列模型(Cho等人,2014)和自动编码器模型(Bengio, 2009;Liou et al, 2008, 2014)有关。序列到序列模型是最成功的生成神经模型之一,被广泛应用于机器翻译(Sutskever et al, 2014;Jean等,2015;Luong等人,2015),文本摘要(Rush等人,2015;Chopra等,2016;Nallapati等人,2016)和其他自然语言处理任务。自动编码器(Bengio, 2009)是一种人工神经网络,用于有效表示的无监督学习。神经注意模型由Bahdanau等人(2014)首次提出。
5 Conclusion
我们提出了一个新的模型(加了监督器的模型),在这个模型中,自动编码器是序列到序列模型的监督者,学习一个更好的内部表示用于抽象摘要。引入了一种对抗学习方法(提高这个加入部分的性能),进一步提高了自编码器的监督性能。实验结果表明,该模型在序列到序列基线的性能上有较大的提高,在中文社交媒体数据集上达到了最先进的性能。
致谢
略
标注
粉色:笔记中的重点内容
橙色:译文中的名词笔记
紫色:译文中的重点内容