该问题归类到Transformer架构问题集——解码策略——采样与可控性。请参考LLM数学推导——Transformer架构问题集。
1. 引言
在大语言模型(LLM)的文本生成领域,采样策略如同掌控生成质量的 "舵手",既要避免贪心采样的单调重复,又要防止随机采样的语义失控。典型采样(Typical Sampling)作为一种基于信息论的采样方法,通过严格的信息量约束条件筛选候选词,在 "典型性" 与 "多样性" 之间找到了独特的平衡点。本文将从技术原理、数学理论、实战应用到代码实现,逐层解析典型采样如何通过控制每个词的信息量,实现更智能的文本生成。
2. 技术原理:从信息论视角筛选 "典型" 词
典型采样的核心思想是:只选择那些信息量接近整体分布平均水平的词。这里的 "信息量" 用单个词的负对数概率(即香农信息量)衡量,公式为 。整体分布的平均信息量即熵
。
2.1 典型集的定义
典型采样通过设定一个阈值 ,筛选出满足以下条件的词构成典型集
:
即单个词的信息量与熵的差距不超过 。直观理解:
- 当
时,仅保留信息量严格接近熵的词,生成高度典型但可能缺乏变化的内容;
- 当
增大时,允许更多样的词进入候选集,平衡典型性与多样性。
2.2 与其他采样方法的区别
- Top-p 采样:基于累积概率筛选,关注词的概率排名和累积和;
- 温度采样:通过缩放 logits 调整分布形态,间接影响信息量;
- 典型采样:直接基于信息论中的典型集理论(AEP,渐近均分性原理),从信息量角度严格筛选,理论基础更扎实。
举个生活化的例子:如果把词看作班级里的学生,熵是全班的平均成绩,典型采样就是只选成绩在平均分 ±τ 范围内的学生,既不选 "学霸"(信息量过高,概率过低)也不选 "学渣"(信息量过低,概率过高),只选 "中等生",确保生成内容既不极端也不偏离主流。
3. 数学理论:信息量约束条件的严格推导
3.1 香农信息量与典型集性质
单个词的信息量 反映了该词的 "意外程度":
- 高频词(如 "的"" 了 "):
大,
小,信

最低0.47元/天 解锁文章
4562

被折叠的 条评论
为什么被折叠?



