一.负对数似然
似然是已知数据,推参数,我们通过极小化负对数似然(最大似然),来求最佳的模型参数
二.交叉熵损失
而在训练过程中,标签通常采用one-hot编码表示,而样本真实分布的概率,这样交叉熵的表示形式其实是跟负对数似然一样的
三.pytorch实现的区别
1.在使用nn.NLLLoss()是,需要结合nn.LogSoftmax()一起使用,而nn.CrossEntropyLoss()不需要。
2.使用nn.CrossEntropyLoss()时,网络的最后一层不需要加softmax层。
3.使用nn.NLLLoss()是,标签不能使用one-hot编码标签,在使用nn.CrossEntropyLoss()时,可以使用one-hot标签,也可以不使用one-hot标签。