简述:大模型输出的原始得分。
Logits 在中文技术文献中通常直接使用英文术语,没有统一的中文译名。
在大模型训练中,Logits 可以理解为模型对每个预测结果的“原始打分”,它直接反映了模型对不同类别的“倾向性”,但尚未转换为概率。以下是通俗解释:
Logits 是什么?
-
直观理解
假设你问大模型:“明天会下雨吗?”模型可能会输出三个选项的原始分数:
-
下雨:
2.5 -
不下雨:
-1.0 -
阴天:
0.3这些数值就是 Logits,它们表示模型对每个选项的“信心值”,数值越大代表模型越倾向于该结果。
-
-
技术定义
Logits 是模型最后一层神经网络的原始输出,未经过任何归一化处理(如 Softmax)。它的特点是:
-
可以是任意实数(正数、负数,甚至极大/极小值)。
-
不直接代表概率(总和不一定为1)。
-
Logits 的作用
-
训练阶段:指导模型学习
-
计算损失:模型通过 Logits 直接计算损失(如交叉熵损失)。例如,若正确答案是“下雨”,但模型对“下雨”打分为
2.5,对“不下雨”打分为-1.0<
-
大模型训练中的Logits解析

最低0.47元/天 解锁文章
777

被折叠的 条评论
为什么被折叠?



