Transformer——Q86 推导重复惩罚（Repetition Penalty）对概率分布的修正公式

墨顿

于 2025-05-15 09:25:29 发布

阅读量935

点赞数 17

CC 4.0 BY-SA版权

文章标签： transformer 深度学习人工智能解码策略自回归生成

本文链接：https://blog.youkuaiyun.com/pzccool/article/details/147970435

该问题归类到Transformer架构问题集——解码策略——自回归生成。请参考LLM数学推导——Transformer架构问题集。

1. 引言

在大语言模型（LLM）的文本生成过程中，重复生成相同或相似的内容是一个常见且棘手的问题。例如，在故事创作中可能会反复出现相同的情节描述，在对话生成中可能会不断重复相同的语句。为了解决这一问题，重复惩罚（Repetition Penalty）技术应运而生。它通过对已生成的 Token 进行惩罚，降低其再次被选择的概率，从而有效减少文本中的重复现象，提升生成文本的多样性和质量。接下来，我们将从技术原理、数学推导、实际应用、代码实现、优缺点及优化策略等方面，深入剖析重复惩罚技术。

2. 重复惩罚的技术原理

2.1 文本生成中的重复问题

在 LLM 的文本生成过程中，模型往往会因为对某些 Token 的过度依赖而产生重复。这主要是由于模型在训练过程中学习到了某些高频出现的语言模式，在生成时会倾向于选择这些模式，导致生成的文本缺乏多样性。例如，在生成一篇关于旅游的文章时，模型可能会反复使用 “美丽的风景”“令人惊叹” 等词汇，使文章显得单调乏味。

2.2 重复惩罚的基本思想

重复惩罚的核心思想是对已经在生成文本中出现过的 Token 进行惩罚，降低它们在后续生成过程中被再次选择的概率。具体来说，当一个 Token 在已生成的文本中出现的次数越多，它在后续生成中的概率就会被惩罚得越严重。这样可以促使模型尝试选择其他不同的 Token，从而增加文本的多样性。

2.3 与温度采样的对比

温度采样（Temperature Sampling）也是一种常用的增加文本生成多样性的方法，它通过调整 softmax 函数的温度参数来改变概率分布的形状。当温度较高时，概率分布会变得更加平坦，使得低概率的 Token 也有较大的机会被选中；当温度较低时，概率分布会变得更加尖锐，模型会更倾向于选择高概率的 Token。

与温度采样不同，重复惩罚是一种有针对性的惩罚机制，它只对已经出现过的 Token 进行惩罚，而不会影响其他 Token 的概率。这种方法更加直接地解决了文本重复的问题，而不需要像温度采样那样对整个概率分布进行调整。

3. 数学公式推导

3.1 原始概率分布

在 LLM 中，给定前面已经生成的 Token 序列 $y_{<t} = [y_1, y_2, \ldots, y_{t - 1}]$ ，模型预测下一个 Token $y_t$ 的概率分布可以表示为： $P(y_t|y_{<t}) = \frac{\exp(z_{y_t})}{\sum_{i=1}^{|V|} \exp(z_i)}$

其中， $z_i$ 是模型输出的第i个 Token 的 logit 值， $|V|$ 是词汇表的大小。

3.2 重复惩罚的修正公式

重复惩罚对原始概率分布的修正公式可以表示为： $P'(y_t|y_{<t}) = \frac{\exp(z_{y_t} / \alpha)}{\sum_{i=1}^{|V|} \exp(z_i / \alpha)}$

其中， $\alpha$ 是重复惩罚系数，定义为：

最低0.47元/天解锁文章

200万优质内容无限畅学