LLMs 损失函数篇
一、介绍一下 KL 散度
KL(Kullback-Leibler)散度衡量了两个概率分布之间的差异。公式为:
D K L ( P ∥ Q ) = ∑ P ( x ) log P ( x ) Q ( x ) D_{KL}(P \| Q) = \sum P(x) \log \frac{P(x)}{Q(x)} DKL(P∥Q)=∑P(x)logQ(x)P(x)
二、交叉熵损失函数写一下,物理意义是什么
交叉熵损失函数(Cross-Entropy Loss Function)用于度量两个概率分布之间的差异。在分类问题中,它通常用于衡量模型的预测分布与实际标签分布之间的差异。公式为:
H ( p , q ) = − ∑ i = 1 N p ( x i ) log q ( x i ) H(p, q) = -\sum_{i=1}^N p(x_i) \log q(x_i) H(p,q)=−i=1