什么是大模型的超参，它对输出有什么影响？

最新推荐文章于 2025-10-13 11:12:19 发布

原创最新推荐文章于 2025-10-13 11:12:19 发布 · 943 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #智能化测试 #质量效能 #LLM #超参 #AI赋能

测试开发和测试同时被 3 个专栏收录

421 篇文章

订阅专栏

人工智能

348 篇文章

订阅专栏

DeepSeek

6 篇文章

订阅专栏

在使用大语言模型（LLM, Large Language Model）时，许多用户可能并不清楚，模型的输出不仅依赖于输入的内容，还受到超参数（Hyperparameters, 超参）的深刻影响。超参数是指在训练或推理过程中人为设定的控制变量，它们决定了模型的学习方式、生成风格、稳定性和多样性。

那么，大模型的超参到底有哪些？它们如何影响最终的输出？本文将从超参数的定义、关键超参解析、对 LLM 输出的影响以及如何合理调整超参等方面进行深入探讨。

1. 什么是超参数？

超参数（Hyperparameter）是在训练和推理过程中由用户手动设定的参数，与训练过程中自动学习的模型参数（如神经网络权重）不同。超参数的选择直接影响模型的性能、输出的稳定性、创造力，以及对不同任务的适应能力。

超参数的两大类别：

训练时超参数（Training Hyperparameters）：影响模型的学习过程，如学习率、批量大小、优化器类型、正则化等。
推理时超参数（Inference Hyperparameters）：影响模型生成的文本风格和多样性，如温度（Temperature）、Top-k 采样、Top-p 采样、最大生成长度等。

在日常使用 LLM 时，我们主要调整的是推理超参数，它们直接决定了输出的质量、稳定性和创造力。

2. 关键推理超参数解析及其影响

2.1 温度（Temperature, T）

定义：温度控制模型生成文本时的随机性。

P(w)=exp⁡(sw/T)∑iexp⁡(si/T)P(w) = \frac{\exp(s_w / T)}{\sum_{i} \exp(s_i / T)}

其中，sws_w 是某个词的 logits（未归一化得分），TT 是温度参数。

影响：

TT 低（0.1 - 0.5） → 确定性增强，模型倾向于选择概率最高的词，输出更稳定，但可能过于死板。
TT 高（1.0 - 2.0） → 随机性增强，更具创造性，但可能产生不连贯或无意义的内容。

示例：
输入提示词：

"今天是个好天气，我们可以去"

不同温度下的输出：

T=0.2T = 0.2 → “公园散步。”（稳定但缺乏多样性）
T=1.0T = 1.0 → “海滩冲浪，或者爬山？你觉得哪个更有趣？”（创造性增强）
T=1.5T = 1.5 → “月球探险，或者潜入深海遗迹？”（高随机性，可能不现实）

应用场景：

低温度适用于正式文档、法律文本、代码生成等场景。
高温度适用于创意写作、对话生成、故事创作等场景。

2.2 Top-k 采样（Top-k Sampling）

定义：从前 K 个最高概率的词中进行随机采样，而忽略 K 之外的词。

影响：

K 小（如 K=5） → 输出较稳定，限制了创造性。
K 大（如 K=50） → 生成的句子更加丰富，但可能包含低质量词汇。

示例：
如果模型预测下一个单词的概率分布如下：

词汇	概率（%）
公园	35%
海边	25%
游乐场	15%
图书馆	10%
电影院	8%
其他	7%

Top-k（K=3） 只会考虑 公园、海边、游乐场，排除低概率词，保证合理性。
Top-k（K=50） 可能会采样到概率仅 1% 的罕见词，增加随机性。

适用场景：

低 K（5-10）：适用于严谨场景（如代码、法律、新闻）。
高 K（40-50）：适用于创造性任务（如故事生成、诗歌写作）。

2.3 Top-p 采样（Nucleus Sampling）

定义：选择累计概率达到 P（如 90%）的词汇集合，并从中采样。

影响：

P 低（如 0.8） → 限制低概率词，输出更加稳定。
P 高（如 0.95） → 允许更多低概率词汇，增加多样性。

示例：
如果某个词的概率分布如下：

词汇	概率（%）
公园	35%
海边	25%
游乐场	15%
图书馆	10%
电影院	8%
其他	7%

Top-p（P=0.8） → 只会考虑 公园、海边、游乐场（累计概率刚好达到 80%）。
Top-p（P=0.95） → 可能包括 图书馆、电影院，增加多样性。

适用场景：

低 P（0.8）：适用于信息准确度要求高的场景（如技术文档、问答系统）。
高 P（0.95）：适用于需要更多变化的场景（如文学创作、聊天机器人）。

2.4 最大生成长度（Max Tokens）

定义：控制模型最多可以生成多少个 token。

影响：

过短 → 句子可能被截断，影响完整性。
过长 → 可能导致冗长、啰嗦，甚至生成无意义内容。

示例：

Max Tokens = 20 → “Python 是一种编程语言，广泛用于...”（句子未完成）
Max Tokens = 100 → “Python 是一种高级编程语言，具有广泛的应用场景，包括...”（完整回答）

适用场景：

低值（50-100）：适用于简洁回答、摘要生成。
高值（500+）：适用于长篇对话、故事创作。

3. 如何合理调整超参数？

需求	推荐超参
确定性强（如法律、医疗）	低温度（0.2），Top-k=5，Top-p=0.8
适度变化（如对话、编程）	温度（0.7），Top-k=10-20，Top-p=0.9
高创造性（如诗歌、故事）	高温度（1.5），Top-k=50，Top-p=0.95