Transformer——Q92 分析典型采样（Typical Sampling）的信息量约束条件

本文链接：https://blog.youkuaiyun.com/pzccool/article/details/148008145

该问题归类到Transformer架构问题集——解码策略——采样与可控性。请参考LLM数学推导——Transformer架构问题集。

1. 引言

在大语言模型（LLM）的文本生成领域，采样策略如同掌控生成质量的 "舵手"，既要避免贪心采样的单调重复，又要防止随机采样的语义失控。典型采样（Typical Sampling）作为一种基于信息论的采样方法，通过严格的信息量约束条件筛选候选词，在 "典型性" 与 "多样性" 之间找到了独特的平衡点。本文将从技术原理、数学理论、实战应用到代码实现，逐层解析典型采样如何通过控制每个词的信息量，实现更智能的文本生成。

2. 技术原理：从信息论视角筛选 "典型" 词

典型采样的核心思想是：只选择那些信息量接近整体分布平均水平的词。这里的 "信息量" 用单个词的负对数概率（即香农信息量）衡量，公式为 $I(x_i) = -\log p(x_i)$ 。整体分布的平均信息量即熵 $H(p) = \mathbb{E}[I(x)] = -\sum p(x_i) \log p(x_i)$ 。

2.1 典型集的定义

典型采样通过设定一个阈值 $\tau$ ，筛选出满足以下条件的词构成典型集 $T$ ： $|I(x_i) - H(p)| \leq \tau$

即单个词的信息量与熵的差距不超过 $\tau$ 。直观理解：

当 $\tau \to 0$ 时，仅保留信息量严格接近熵的词，生成高度典型但可能缺乏变化的内容；

当 $\tau$ 增大时，允许更多样的词进入候选集，平衡典型性与多样性。

2.2 与其他采样方法的区别

Top-p 采样：基于累积概率筛选，关注词的概率排名和累积和；

温度采样：通过缩放 logits 调整分布形态，间接影响信息量；

典型采样：直接基于信息论中的典型集理论（AEP，渐近均分性原理），从信息量角度严格筛选，理论基础更扎实。

举个生活化的例子：如果把词看作班级里的学生，熵是全班的平均成绩，典型采样就是只选成绩在平均分 ±τ 范围内的学生，既不选 "学霸"（信息量过高，概率过低）也不选 "学渣"（信息量过低，概率过高），只选 "中等生"，确保生成内容既不极端也不偏离主流。

3. 数学理论：信息量约束条件的严格推导

3.1 香农信息量与典型集性质

单个词的信息量 $I(x_i) = -\log p(x_i)$ 反映了该词的 "意外程度"：

高频词（如 "的"" 了 "）： $p(x_i)$ 大， $I(x_i)$ 小，信息量低；

低频词（如专业术语）： $p(x_i)$ 小， $I(x_i)$ 大，信息量高。

根据渐近均分性原理（AEP），当样本量足够大时，典型集 $T$ 满足：

概率近似： $\sum_{x_i \in T} p(x_i) \approx 1$ （几乎包含所有高概率词）；
元素数量： $|T| \approx 2^{nH(p)}$ （与熵的指数相关，n 为序列长度）。

典型采样通过阈值 $\tau$ 显式控制每个词的信息量波动范围，确保生成的词既不过于普通（如高频停止词），也不过于罕见（如低频生僻词）。

3.2 约束条件的数学表达

给定模型输出的概率分布 $p(x)$ ，典型集 $T$ 的构造步骤为：

计算每个词的信息量 $I(x_i) = -\log p(x_i)$ ;
计算分布熵 $H(p) = -\sum p(x_i) \log p(x_i)$ ;
筛选满足 $H(p) - \tau \leq I(x_i) \leq H(p) + \tau$ 的词，构成 $T$ ;
对 $T$ 内的词概率归一化后采样。

3.3 $\tau$ 值对生成的影响

小 $\tau$ （如 $\tau$ =0.5）：仅保留信息量接近熵的词，生成内容偏向 "标准表达"。例如生成 "猫坐在沙发上"，不会出现 "狸花猫蜷缩在米白色布艺沙发上" 这样细节丰富的表达，因为后者包含更多中低频词（如 "蜷缩"" 米白色 ""布艺"），信息量波动较大。

大 $\tau$ （如 $\tau$ =1.5）：允许更多样的词进入，生成内容更生动。例如上述例子可能扩展为 "那只斑纹清晰的狸花猫正惬意地蜷缩在刚换上的米白色布艺沙发上，尾巴有节奏地扫过靠垫"，包含更多细节描述词，信息量波动更大但仍在约束范围内。

4. LLM 实战：典型采样的多场景应用

4.1 故事创作：在 "套路" 与 "创新" 间走钢丝

场景 1：构建核心情节（ $\tau$ =0.8）

约束条件：选择信息量接近平均水平的词，确保情节主线清晰。

生成示例：

主角推开古堡大门，灰尘在光束中飞舞。他注意到墙上挂着一幅褪色的油画，画中人物的眼睛似乎在跟随他移动。

技术解析："推开"" 古堡 ""灰尘"" 光束 ""油画" 等词的信息量均在熵值附近，避免使用过于生僻的词汇（如 "古堡" 而非 "古代城堡"）或过于普通的词汇（如 "打开" 而非 "推开"），保证情节既典型又不失细节。

场景 2：描写环境细节（ $\tau$ =1.2）

约束条件：放宽 $\tau$ 值，纳入更多描述性词汇。

生成示例：

潮湿的空气中弥漫着霉菌与铁锈的混合气味，石阶上覆盖着一层滑腻的青苔，烛台里的蜡烛忽明忽暗，在石壁上投下扭曲的影子，仿佛有无数只无形的手在舞动。

技术解析："滑腻的青苔"" 扭曲的影子 " 等词的信息量略高于平均值，但未超出 $\tau$ =1.2 的范围，在典型性基础上增加了环境描写的生动性。

4.2 对话系统：让机器人回复更 "人类化"

场景 1：客服咨询（ $\tau$ =0.6）

应用需求：回复需准确规范，避免歧义。

回复示例：

您的问题涉及账户安全，请通过 APP 内的 "帮助中心" 提交工单，我们会在 24 小时内处理。

技术解析：使用 "账户安全"" 帮助中心 ""提交工单" 等信息量中等的词，排除过于口语化（如 "亲"）或过于专业（如 "账户认证体系"）的表达，确保回复既标准又易懂。

场景 2：闲聊互动（ $\tau$ =1.0）

应用需求：回复需自然生动，体现个性化。

回复示例：

哈哈，你说的那部电影我也看过！结尾的反转简直让我起鸡皮疙瘩，尤其是主角眼里那抹泪光，演技简直绝了！

技术解析："起鸡皮疙瘩"" 演技绝了 " 等词的信息量稍高，但在 $\tau$ =1.0 允许范围内，使回复更具情感色彩，避免机械感。

4.3 代码生成：在 "简洁" 与 "健壮" 间平衡

场景 1：生成基础函数（ $\tau$ =0.7）

生成代码：

def calculate_average(nums):  
    return sum(nums) / len(nums)

技术解析：使用 "calculate_average""sum""len" 等中等信息量的函数名和操作符，符合 Python 编程规范，避免使用过于简略（如 "avg"）或冗长（如 "compute_the_average_value"）的命名。

场景 2：生成带注释的代码（ $\tau$ =1.1）

生成代码：

def calculate_average(numeric_list):  
    """计算数值列表的平均值  
    参数:  
        numeric_list (list): 包含数字的列表  
    返回:  
        float: 列表的平均值  
    """  
    if not numeric_list:  
        return 0.0  
    total = sum(numeric_list)  
    return total / len(numeric_list)

技术解析："numeric_list"" 包含数字的列表 " 等词的信息量稍高，但在 $\tau$ =1.1 范围内，允许添加类型提示和注释，提升代码可读性，同时避免过度设计。

5. 优缺点分析：典型采样的 "双面镜"

5.1 核心优势

理论严谨性：基于信息论中的典型集理论，筛选条件具有明确的数学意义，避免了 Top-p 采样中累积概率阈值的经验性设定。

多样性 - 典型性平衡：通过 $\tau$ 值精确控制候选词的信息量范围，既能排除极端高频 / 低频词，又能保留足够多样的中等概率词。

抗分布偏差：对模型输出的概率分布不敏感，无论分布是尖锐（低温采样结果）还是平滑（高温采样结果），都能通过 $\tau$ 值调整筛选出合理的典型集。

5.2 潜在局限

计算复杂度高：需为每个词计算信息量并与熵值比较，当词表规模大时（如 5 万以上），计算耗时显著增加。

$\tau$ 值调优困难：不同任务需要不同的 $\tau$ 值，且缺乏普适性指导原则，需通过大量实验确定（如故事生成可能需要 $\tau$ =1.0，而技术文档生成可能需要 $\tau$ =0.6）。

长程依赖忽略：仅基于当前词的信息量筛选，未考虑上下文依赖，可能导致生成序列的局部典型但全局逻辑断裂（如前句用 "计算机"，后句突然用 "电脑"，虽单个词典型，但上下文一致性不足）。

6. 优化策略：让典型采样更高效智能

6.1 动态 $\tau$ 值调整

基于上下文的自适应：

生成开头时（需明确主题）：使用小 $\tau$ 值（如 $\tau$ =0.5），确保核心词典型；
生成中间扩展部分（需丰富细节）：增大 $\tau$ 值（如 $\tau$ =1.2），纳入更多描述性词汇；
生成结尾时（需总结收束）：回归小 $\tau$ 值（如 $\tau$ =0.7），使用高频总结词（如 "总之"" 因此 "）。

6.2 与其他采样方法结合

典型 + Top-p 双重筛选：

先用典型采样筛选出信息量合规的词集 $T$ ;
再对 $T$ 应用 Top-p 采样（如 p=0.95），进一步排除 $T$ 中的极低概率词。优势：在保证典型性的同时，避免生成 $T$ 中概率过低的边缘词，提升生成稳定性。

典型 + 温度联合调节：先通过温度缩放调整 logits 分布（如高温使分布更平滑），再进行典型采样。例如：
低温（T=0.8）+ 小 $\tau$ ：生成严谨的技术文档；
高温（T=1.2）+ 大 $\tau$ ：生成创意性故事。

6.3 优化计算效率

预处理词表：对高频词提前计算信息量，存储常用词的 $I(x_i)$ 和 $H(p)$ 近似值，避免每次生成时重复计算。

近似筛选算法：采用二分法或分组统计，快速定位满足 $|I(x_i) - H(p)| \leq \tau$ 的词，而非全词表遍历。

7. 代码示例：实现典型采样的核心逻辑

import torch  
import math  

def typical_sampling(logits, tau=1.0):  
    # 1. 计算概率分布  
    probs = torch.softmax(logits, dim=-1)  
    # 2. 计算每个词的信息量和分布熵  
   信息量 = -torch.log(probs)  
    熵 = -torch.sum(probs * 信息量)  
    # 3. 筛选典型集：|I(x_i) - H(p)| <= tau  
    典型掩码 = torch.abs(信息量 - 熵) <= tau  
    典型集_probs = probs * 典型掩码.float()  
    # 4. 处理全过滤情况（概率为0时回退到全词表采样）  
    if typical集_probs.sum() == 0:  
        典型集_probs = probs  
    else:  
        典型集_probs /= 典型集_probs.sum()  # 归一化  
    # 5. 采样  
    采样索引 = torch.multinomial(典型集_probs, num_samples=1)  
    return 采样索引.item()  

# 示例用法  
logits = torch.tensor([3.0, 2.5, 2.0, 1.5, 1.0])  # 假设5个词的logits  
tau_values = [0.5, 1.0, 1.5]  

for tau in tau_values:  
    采样结果 = typical_sampling(logits, tau)  
    print(f"tau={tau}: 采样词索引={采样结果}, 概率={torch.softmax(logits, dim=-1)[采样结果].item():.4f}")

代码解读

核心步骤 1-3：通过 softmax 计算概率，再计算每个词的信息量（负对数概率）和分布熵，用掩码筛选出满足 $|I(x_i) - H(p)| \leq \tau$ 的词。

鲁棒性处理：若典型集为空（所有词均不满足条件），回退到全词表采样，避免生成失败。

可视化输出：示例中 logits 递减，随着 tau 增大，更多低频词被纳入典型集，采样结果从高概率词（索引 0）逐渐向中低频词（索引 1、2）偏移，直观展示 τ 值对采样的影响。

8. 总结：在信息论框架下驾驭生成多样性

典型采样如同一位 "理性的创作者"，用信息论的标尺精准度量每个词的 "典型性"，在确保生成内容不偏离主流的同时，为多样性留下呼吸空间。它的核心价值在于：

理论深度：基于香农信息量和典型集理论，让采样过程有了明确的数学约束；

实践灵活：通过 $\tau$ 值调节，适应从严谨到创意的全场景需求；

兼容扩展：可与温度缩放、Top-p 等方法结合，形成更强大的生成策略。

尽管存在计算复杂度和参数调优的挑战，但随着 LLM 应用的深入，典型采样的信息论优势将愈发凸显。未来，结合动态 $\tau$ 值、上下文感知的优化策略，它有望在代码生成、多语言翻译等对语义准确性要求高的场景中发挥更大作用。掌握典型采样的信息量约束条件，就像获得了一把丈量生成质量的 "信息标尺"，让 LLM 在典型性与多样性的平衡木上走得更稳、更远。