大模型中的参数Temperature的作用是什么？

最新推荐文章于 2025-07-02 16:37:57 发布

小天才学习机打游戏

最新推荐文章于 2025-07-02 16:37:57 发布

阅读量1.2k

点赞数 9

CC 4.0 BY-SA版权

文章标签：人工智能数据库语言模型自然语言处理 transformer

本文链接：https://blog.youkuaiyun.com/m0_59164520/article/details/147313008

ChatGPT, GPT-3, GPT-3.5, GPT-4, LLaMA等大型语言模型的一个重要的超参数之一就是Temperature。一般来说，大型语言模型能够根据给定的上下文或提示生成新文本，由于神经网络等深度学习技术的进步，这些模型越来越受欢迎。可用于控制生成语言模型行为的关键参数之一是Temperature 参数。

在本文中，我们将讨论语言生成模型中Temperature 参数的作用，以及它如何影响生成文本的质量。

01.参数Temperature的定义

Temperature是自然语言处理模型中使用的一个参数，用于增加或减少模型对其最可能给出的响应的"置信度"。

在我看来，理解该参数如何影响模型输出最直观的方法就是亲自尝试调整。如果你对数学细节感兴趣，我会在下方进行相关说明。

02.原理说明

针为了便于理解，我们先来看个简单的例子：

假设我们有一个语言模型，其任务是预测句子"The mouse ate the _____"中的最后一个单词。根据句子中已有的前文以及模型先前的训练，该语言模型将尝试用一个合理的词汇来填空。假设原始输出结果如下：

这些输出结果是合理的。老鼠可能吃奶酪（cheese），但众所周知，老鼠也会吃饼干(cookie)。

由于这些是模型的原始输出值，它们的总和不会等于100。为了将这些值归一化，我们通常会使用 softmax 函数：

在使用参数Temperature进行调节时，我们会引入一个额外的Temperature变量 θ，该变量会影响 softmax 的概率分布。较高的Temperature参数 θ 会"激发"那些原本概率较低的输出（提高其可能性），而较低的温度 θ 会使较小的输出值相对于最大输出值进一步降低（强化主导项）。为实现这种调节效果，我们将公式中的每个原始输出值 zi 替换为 zi/θ ，公式如下：

03.实验结果

只看上面的公式，大家觉得不太直观。那我们来写代码进行可视化展现吧！

根据上述例子，编写代码如下：

import mathimport matplotlib.pyplot as plt
def plot_with_temperature(name_list,value_list,temperature):    tmp_list = [ math.pow(math.e, x/temperature) for x in value_list]    sum_value = sum(tmp_list)    out_list = [  x / sum_value for x in tmp_list]    plt.bar(name_list,out_list)    plt.show()    pass
if __name__ == "__main__":    name_list = ["cat","cheese","pizza","cookie","fondue","banana","baguette","cake"]    value_list = [3, 70, 40, 65, 55 , 10, 15 ,12 ]    plot_with_temperature(name_list, value_list, temperature=1)    plot_with_temperature(name_list, value_list, temperature=10)    plot_with_temperature(name_list, value_list, temperature=50)    plot_with_temperature(name_list, value_list, temperature=100)    plot_with_temperature(name_list, value_list, temperature=1000)

当temperature=1时，输出结果如下：

当temperature=10时，输出结果如下：

当temperature=50时，输出结果如下：

当temperature=100时，输出结果如下：

当temperature=1000时，输出结果如下：

结论

观察上述输出，我们可以得出如下结果：

*较高的Temperature参数会使模型更具"创造性"，例如在生成散文时可能很有用。而较低的Temperature参数会让模型更具"确定性"，这在问答类应用场景中非常实用。*

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述