Learning to Break the Loop: Analyzing andMitigating Repetitions for Neural Text Generation(论文阅读)

论文地址:https://arxiv.org/pdf/2206.02369

创新点:由于GPT 2和BART等模型往往会陷入基于最大化的解码算法(例如,贪婪搜索)。提出了一种简单有效的训练方法DITTO(伪重复惩罚),其中模型学习从伪重复数据中惩罚重复级别重复的概率。

研究结果:因为在人类语料库中几乎没有连续的重复级别(例如,0.02%在Wikitext-103)。为了研究产生连续重复级别重复的根本原因,所以研究了重复token的概率与上下文中先前重复的概率之间的关系。通过定量实验,发现:

  • 语言模型具有重复前一句的偏好;
  • 重复水平的重复具有自强化效应:一个句子在上下文中重复的次数越多,继续生成该句子的概率越高;
  • 初始概率越高的句子通常具有更强的自强化效应。

实验结果:受研究结果的启发,虽然该方法的动机是减少重复,实验表明,DITTO不仅减轻了重复问题,而不牺牲困惑,但也实现了更好的生成质量。开放式文本生成(Wikitext-103)和文本摘要(CNN/DailyMail)的大量实验证明了该方法的通用性和有效性。

1、介绍

        具有标准的基于最大化的解码的模型会陷入冗余的连续重复中,如图1所示,该模型对连续的两级重复的偏好比单词或短语级更强,而人类语言的连续两级重复较少,这表明人类语言和生成的文本之间存在差异。现有的减少重复的方法可以分为基于解码和基于训练的方法。基于解码的方法通过软或硬n-gram块来纠正这些问题。
       

图1:Wikitext-103开发集上人类句子与模型生成的统计数据。在大规模人类语料库Wikitext-103(超过1亿字)上训练了一个Transformer模型(750 M参数,类似于GPT-2 Large)。

左:贪婪解码陷入连续的重复级别。右行:单词、短语(单词数量)和重复水平的连续重复百分比(参见附录A中的连续重复公式)。

模型结果是从Wikitext-103 dev集合中给定不同前缀生成的文本的平均值。具体地说,给定50个tokens作为前缀,模型grecker生成接下来的200个tokens。与人类语言相比,该模型具有更多的连续重复级别 

 困惑/信息控制以及随机抽样。基于训练的方法最小化了在先前的上下文中已经生成的tokens的概率。尽管它们是有效的,但该模型偏好重复的原因以及在解码过程中重复是如何发生的仍然不清楚。Fu等人首先从理论的角度分析了重复问题,假设语言模型可以用短视的一阶马尔可夫模型来近似。然而,Holtzman等人观察到了重复的正反馈循环的情况,这表明语言模型确实考虑了长距离上下文,并且不能简单地被视为一阶马尔可夫模型。实验结果还表明,在语境中,重复tokens的出现概率与先前的重复tokens有一定的关系。但是,他们没有分析为什么模型更喜欢连续重复。

       通过定量实验分析了这一重复的深层问题。为了定量地研究连续重复句,比较了重复句中相同tokens的出现概率。例如,给出一个序列,“I love oranges . I love oranges .。“比较概率Pθ(oranges|‘I love oranges . I love’与 Pθ(oranges|‘I love’).。它们之间的区别在于,对于第二个"oranges",已经有一个token"oranges"共享相同的句子级上下文‘I love’。手动重复句子n次作为上下文,以便下一个‘oranges’ 在上下文中有n次重复。通过这种方式,可以研究token的概率与上下文中重复次数之间的关系。例如,可以通过重复‘I love oranges .’这句话来构建上下文。n次加上‘I love’,然后获得模型在当前步骤输出‘oranges’的概率。通过对不同语料库的定量研究,发现:

  1. 该模型倾向于提高重复前一句的概率。具体地说,即使只有一个句子级上下文重复,在大多数情况下,在当前步骤重复的概率也增加。该现象的原因可能是,当存在先前的token(即,“oranges”)共享相同的句子级上下文(即,“I love”),即模型学习到了直接复制token的捷径;
  2. 自我强化效应:重复的概率随着历史重复次数的增加而几乎单调增加。最后,重复的概率稳定在某个上限值附近。如图2所示,随着重复次数的增加,“rounds”和“general”这两个词的概率都几乎单调地增加,最终趋于稳定;
  3. 初始概率越高的句子通常具有越强的自我强化效应。例如,在图2中,可以发现,具有较高初始概率的句子(即,在x轴的“0”处的红色条)增长得更快,并且可以在几次重复后达到极高的值。此外,具有更高初始似然性的句子(例如,由模型本身利用基于最大化的解码算法生成的句子)可以具有更强的自增强效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值