该问题归类到Transformer架构问题集——解码策略——采样与可控性。请参考LLM数学推导——Transformer架构问题集。
1. 引言
在大语言模型(LLM)的文本生成领域,温度缩放(Temperature Scaling)是一项看似简单却蕴含深刻数学原理的核心技术。它通过一个名为 温度 T 的参数,像调节水龙头一样控制着模型输出的 “确定性” 与 “多样性”—— 低温让生成如精密钟表般严谨,高温则让创意如喷泉般迸发。而这一切的本质,在于温度对概率分布 ** 熵(Entropy)** 的精准调控。本文将从技术本质、数学推导、实战应用到优化策略,逐层揭开温度缩放的神秘面纱,帮助读者深入理解这一技术如何重塑 LLM 的生成逻辑。
2. 技术原理:温度如何重塑概率分布的 “灵魂”
2.1 从 logits 到概率:一场关于 “选择” 的数学魔法
LLM 在生成每个词时,会输出一个名为 logits 的向量 ,其中
表示模型对第 i 个词的 “偏好得分”。原始 logits 通过 softmax 函数 转化为概率分布:
但直接使用原始 logits 会导致分布 “两极分化”:高得分词的概率趋近于 1,低得分词被边缘化。温度缩放的介入,相当于给 logits 加上一个 “放大镜” 或 “缩小镜”:将 logits 除以温度 T 后再输入 softmax:
温度的三种 “魔法形态”:
-
低温(
,如 T=0.5):聚焦确定性
- 数学表现:
的差异被放大。例如,若
,
,T=0.1,缩放后变为 50 和 30,
远大于
,概率集中在第一个词(
)。
- 分布形态:如 “激光束” 般锐利,熵值
,模型生成高度确定,适合法律文书、技术文档等需要精准性的场景。
- 数学表现:
-
常温(T=1):平衡的中点
- 数学表现:直接使用原始 logits,概率分布反映模型的 “原生偏好”。
- 分布形态:介于确定与随机之间,适合大多数常规生成任务(如对话回复、新闻摘要)。
-
高温(
,如 T=2):拥抱多样性
- 数学表现:
,所有词的指数值趋近于 1,概率分布趋于均匀(
)。
- 分布形态:如 “平铺的水彩” 般均匀,熵值
,模型生成充满随机性,适合故事创作、诗歌生成等创意任务。
- 数学表现:
2.2 熵:衡量分布 “不确定性” 的数学标尺
熵的计算公式为:

最低0.47元/天 解锁文章
303

被折叠的 条评论
为什么被折叠?



