【论文阅读笔记】Autoencoder as Assistant Supervisor

Qinn-

已于 2022-11-09 10:54:34 修改

阅读量449

点赞数

分类专栏：论文阅读笔记文章标签：深度学习

于 2022-09-14 11:05:18 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_43894304/article/details/126784199

版权

论文阅读笔记专栏收录该内容

13 篇文章

订阅专栏

本文提出了一种使用自动编码器作为监督器的模型，改进了中文社交媒体文本摘要的表示学习。该模型在源内容和摘要的表示之间引入了监督，通过对抗性学习进一步增强，从而在大规模中文社交媒体数据集上达到了最先进的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Autoencoder as Assistant Supervisor: Improving Text Representation for Chinese Social Media Text Summarization / 自动编码器作为监督器：改进中文社交媒体文本摘要的文本表示方法

Abstract

目前大多数的摘要文本模型都是基于序列到序列的模型（Seq2Seq）。社交媒体的源内容冗长且嘈杂，因此Seq2Seq很难学习到准确的语义表示。与源内容相比，注释摘要短小精悍。此外，它与源内容具有相同的含义。在这项工作中，我们监督学习源内容的表示与摘要的表示。在实现中，我们将摘要自动编码器作为Seq2Seq的监督。在之前的工作基础上，我们在一个流行的中国社交媒体数据集上评估了我们的模型。实验结果表明，该模型在基准数据集上达到了最先进的性能。

🌙what is seq2seq？

首先，补习一下LSTM的知识点。在此之前我们要了解一下RNN网络（循环神经网络），它的结构我感觉有点像编译原理里学过的自动机，反正大概意思就是它的Hidden Layer是S=f(现有的输入+过去记忆总结) ，借此来实现了时间记忆功能。LSTM和GRU是作为RNN的改进版出现的。LSTM可以通过“门”结构来去除或者增加“细胞状态”的信息，实现了对重要内容的保留和对不重要内容的去除。

seq2seq是根据给定的序列，通过特定的方法产生一个新序列。不仅是一句话，扩展来说也可以是图像生成图像字幕，文字生成文字摘要。模型通常包含编码器、解码器、上下文向量三个部分。

1 Introduction

文本摘要是对文本的主要思想进行简要的总结。不同于提取文本摘要(Radev等人，2004;伍德森和拉帕塔，2010;Cheng和Lapata, 2016)，从源文本中选择单词或单词短语作为摘要，抽象文本摘要学习语义表示，以生成更接近人工的摘要。目前，大多数抽象文本摘要模型都是基于seq2seq模型的，该模型使用编码器将源文本编码成语义表示，并使用解码器从语义表示生成摘要。

社交媒体上的内容很长，包含很多错误，这些错误来自拼写错误、非正式表达和语法错误(Baldwin et al, 2013)。大量的内容错误给文本的归纳带来了很大的困难。对于基于RNN的Seq2Seq，由于存在梯度消失和爆炸问题，很难将长序列压缩成精确的表示形式(Li et al, 2015)。

这里的梯度消失和BP的不一样，这里主要指由于时间过长而造成记忆值较小的现象。

与源内容相比，更容易编码摘要的表示形式更容易，这些表示形式很短，并且是手动选择的。由于源内容和摘要共享相同的点，可以监督源内容的语义表示与摘要的语义表示的学习。

在本文中，我们将一个摘要自动编码器作为Seq2Seq的监督器。首先，我们训练一个自动编码器，它输入并重构摘要，以获得更好的表示来生成摘要。然后，我们通过最小化两个表示之间的距离来监督Seq2Seq的内部表示与自动编码器的内部表示。最后，我们利用对抗性学习来加强监督。继之前的工作(Ma et al, 2017)之后，我们在一个中国社交媒体数据集上评估了我们提出的模型。实验结果表明，我们的模型优于现有的基线模型。

2 Proposed Model

本节将详细介绍我们提出的模型。

3.1 Notation

给定一个由N个数据样本组成的汇总数据集，第i个数据样本(x_i,y_i)包含了一个源内容x_i={x_1,x_2,...,x_M}和一个摘要y_i={y_1,y_2,...,y_L}，M为源词数，L为摘要词数。在训练阶段，我们训练模型在给定源内容x的情况下生成摘要y。在测试阶段，模型在给定源内容x的情况下解码预测的摘要y'。

2.2 Supervision with Autoencoder

图1显示了我们的模型的体系结构。在训练阶段，源内容编码器使用Bi-LSTM编码器将输入内容x压缩到内部表示z_t中。同时，摘要编码器将引用摘要y压缩为表示z_s。然后将z_t和z_s都输入LSTM解码器以生成摘要。最后，源内容的语义表示由摘要监督。

我们通过最小化语义表示z_t和z_s之间的距离来实现监督，损失函数中的这一项可以写成：

其中d(z_t, z_s)是测量z_s和z_t之间距离的函数。λ是一个可调超参数，以平衡监督损失和其他部分的损失，N_h是隐藏单元的数量，以限制距离函数的大小。根据验证集上的性能，我们设置λ = 0.3。两个表示之间的距离可以写成：

2.3 Adversarial Learning

我们以对抗性学习的方式进一步加强监督。如式1所示，我们使用一个固定的超参数λ作为权重来衡量自动编码器的监督强度。但在源内容与摘要相关性高的情况下，监督力度应较高，而在源内容与摘要相关性低的情况下，监督力度应较低。为了更动态地确定监督的强度，我们引入了对抗学习。更具体地说，我们将自动编码器的表示视为“黄金”表示，而将序列到序列的表示视为“假”表示。训练一个模型来区分黄金和假表示，这被称为鉴别器。鉴别器试图识别这两种表示。相反，监督，使表示之间的距离最小化，使它们相似，试图阻止鉴别器做出正确的预测。这样，当鉴别器能够区分两种表示形式（即源内容与摘要相关性较低）时，监督力度就会降低，当鉴别器不能区分时，监督力度就会提高。

在对抗学习的实现中，判别器目标函数可表示为：

其中，是鉴别器将向量z识别为“黄金”表示的概率，是将向量z识别为“假”表示的概率。是鉴别器的参数。在鉴别器目标最小化时，我们只训练鉴别器的参数，其余参数保持不变。

针对鉴别器的监督目标函数可以写成：

式4

当监督目标最小化时，我们只更新编码器的参数。

2.4 Loss Function and Training

在我们的模型中，目标函数有几个部分需要优化。

第一部分是seq2seq和自动编码器的交叉熵损失：

第二部分是监督的L2损失，如式1所示。最后是对抗性学习，即公式3和公式4。所有这些部分加起来就是要优化的最终损失函数。

L1损失函数又称为MAE(mean abs error)，即平均绝对误差，也就是预测值和真实值之间差值的绝对值。
L2损失函数又称为MSE(mean square error)，即平均平方误差，也就是预测值和真实值之间差值的平方。

我们使用Adam (Kingma and Ba, 2014)优化方法来训练模型。对于Adam优化器的超参数，我们设置学习率α = 0.001，两个动量参数β1 = 0.9和β2 = 0.999，。我们将梯度(Pascanu et al, 2013)剪辑到最大范数10.0。

3 Experiments

继之前的工作(Ma et al, 2017)之后，我们在一个流行的中国社交媒体数据集上评估了我们的模型。我们首先介绍了数据集、评价指标和实验细节。然后，我们将我们的模型与几个最先进的系统进行比较。

3.1 Dataset

大规模中文社交媒体文本摘要数据集(LCSTS)由Hu等人(2015)构建。该数据集由超过240万对文本摘要组成，构建于著名的中国社交媒体网站新浪微博。它分为三个部分，第一部分有2,400,591对，第二部分有10,666对，第三部分有1,106对。第二部分和第三部分中的所有文本摘要对都是手动标注的，相关分数从1到5不等。我们只保留得分不低于3分的样本，第二部分剩下8685对，第三部分剩下725对。在前面的工作(Hu et al, 2015)的基础上，我们使用PART I作为训练集，PART II作为验证集，PART III作为测试集。

3.2 Evaluation Metric（评价指标）

我们的评价指标是ROUGE评分(Lin and Hovy, 2003)，它是常用的总结性评价指标。通过计算重叠的词汇单位(包括unigram、bigram、trigram和最长公共子序列(LCS))，这些指标将自动生成的摘要与参考摘要进行比较。继之前的工作(Rush et al, 2015;Hu et al, 2015)，我们在报道的实验结果中使用ROUGE-1 (ungram)、ROUGE-2 (double gram)和ROUGE-L (LCS)作为评价指标。

3.3 Experimental Details

词汇从训练集中提取，源内容和摘要使用相同的词汇。为了减少分词错误的风险，我们将中文句子分成汉字。我们将词汇量削减到4000，这涵盖了大多数常见字符。

我们基于验证集上的ROUGE评分对超参数调优。我们将单词嵌入大小和隐藏大小设置为512,LSTM层数为2。批处理大小为64，我们不使用dropout (Srivastava et al, 2014)。在之前的工作(Li et al, 2017)的基础上，我们实现了光束搜索，并将光束大小设置为10。

3.4 Baselines

我们将我们的模型与以下最先进的几个进行比较。

RNN和RNN-cont 是由Hu等人(2015)提供的两个序列对序列基线，带有GRU编码器和解码器。两者的区别在于，RNN-上下文具有注意机制，而RNN没有。
RNN-dist (Chen et al, 2016) 是一种基于注意力分散的神经模型，注意力分散的机制侧重于源内容的不同部分。
CopyNet (Gu et al, 2016) 包含了一种复制机制，允许从源内容复制生成的摘要的部分内容。
SRB (Ma et al, 2017) 是一个基于序列对序列的神经模型，改善了输入文本和输出摘要之间的语义相关性。
DRGD (Li等人，2017) 是一种深度循环生成式解码器模型，将解码器与变分自编码器相结合。
Seq2seq 是我们对序列到序列模型的实现，带有注意机制，它具有与我们的模型相同的实验设置，以便进行公平比较。

3.5 Results

为了简单起见，我们将使用自动编码器模型的监督标记为superAE。我们报告我们的模型的ROUGE F1得分和测试集上的对比模型。

表1总结了我们的superAE模型和几个对比的结果。我们首先将我们的模型与Seq2Seq进行比较，superAE模型比Seq2Seq在ROUGE-1提高了7.1，在ROUGE-2上提高了6.1，在ROUGE-L上提高了7.0，这证明了我们的模型的效率。此外，我们将我们的模型与最近的摘要系统进行了比较，这些系统都是在相同的训练集和测试集上进行评估的。他们的研究结果直接发表在相关文章中。结果表明，我们的superAE优于所有这些模型，相对增益在ROUGE-1上为2.2，在ROUGE-2上为1.8，在ROUGE-L上为2.0。我们还通过去除对抗性学习部分来进行消融研究，以显示其贡献。结果表明，对抗学习在ROUGE-1上提高了1.5，在ROUGE-2上提高了0.7，在ROUGE-L上提高了1.0。

我们也对模型进行了实例总结。如表3所示，SeqSeq模型捕获了源内容的错误含义，并生成了“中国联合航空公司在机场爆炸”的摘要。我们的superAE模型捕获了正确的点，因此生成的摘要在意义上接近参考摘要。

3.6 Analysis of text representation

我们想分析我们的superAE模型是否改善了内部文本表示。由于文本表示抽象且难以评价，我们利用情感分类器将文本表示转化为情感评分，并通过情感准确率来评价文本表示的质量。

我们在亚马逊精品食品评论语料库上进行了实验(McAuley和Leskovec, 2013)。亚马逊数据集包含用户的评级标签和评论摘要，这使得训练分类器预测情感标签和seq2seq模型生成摘要成为可能。首先，我们训练了superAE模型和seq2seq模型与文本-摘要对直到收敛。然后，我们将编码器转移到一个情感分类器中，并通过固定编码器的参数来训练分类器。分类器是一个简单的前馈神经网络，它将表示映射到标签分布。最后，计算预测的2类和5类标签的准确率。

如表2所示，seq2seq模型在2-class和5-class的准确率分别为80.7%和65.1%。我们的superAE模型表现优于基线，有8.1%和6.6%的较大差距。

4 Related Work

Rush等人(2015)首先提出了一种基于抽象的摘要模型，该模型使用细心的CNN编码器压缩文本，使用神经网络语言模型生成摘要。Chopra等人(2016)探索了抽象摘要的循环结构。为了解决词汇量不足的问题，Nallapati等人(2016)提出了一种生成器-指针模型，使解码器能够在源文本中生成单词。Gu et al(2016)也通过引入复制机制解决了这个问题，允许部分摘要从源内容中复制。参见et al(2017)进一步讨论了这一问题，并将指针-生成器模型与覆盖机制相结合。Hu等人(2015)建立了一个大型中文社交媒体短文本摘要语料库，这是我们的基准数据集之一。Chen等人(2016)引入了一种基于分散注意力的神经模型，该模型迫使注意机制专注于源输入的不同部分。Ma等人(2017)提出了一种神经模型来提高源内容和摘要之间的语义相关性。

我们的工作也与序列对序列模型(Cho等人，2014)和自动编码器模型(Bengio, 2009;Liou et al, 2008, 2014)有关。序列到序列模型是最成功的生成神经模型之一，被广泛应用于机器翻译(Sutskever et al, 2014;Jean等，2015;Luong等人，2015)，文本摘要(Rush等人，2015;Chopra等，2016;Nallapati等人，2016)和其他自然语言处理任务。自动编码器(Bengio, 2009)是一种人工神经网络，用于有效表示的无监督学习。神经注意模型由Bahdanau等人(2014)首次提出。

5 Conclusion

我们提出了一个新的模型（加了监督器的模型），在这个模型中，自动编码器是序列到序列模型的监督者，学习一个更好的内部表示用于抽象摘要。引入了一种对抗学习方法（提高这个加入部分的性能），进一步提高了自编码器的监督性能。实验结果表明，该模型在序列到序列基线的性能上有较大的提高，在中文社交媒体数据集上达到了最先进的性能。