如何理解交叉熵损失函数与最小对数似然函数的联系

文章详细介绍了交叉熵损失函数和最小化负对数似然函数的概念,包括信息量、熵、相对熵(KL散度)等基础概念,并通过实例阐述了它们之间的关系。在单标签多分类问题中,两者等价。文章强调了理解每个知识点的重要性,以帮助读者构建清晰的理解框架。

前言:很多看似困难的事情,只要我们静下心来理清整个过程,逐一击破各个知识点,最终我们会做到看似不可能的事

一.交叉熵损失函数理解过程

1.什么是信息量

2.什么是熵

3.什么是相对熵(KL散度)

4.什么是交叉熵(由KL散度推出)

5.用例子来理解交叉熵损失函数

使用交叉熵时,其预测结果必须是概率值,所以CrossEntropy函数才会内置softmax对结果进行概率化

上面5个知识点详见下面blog:

交叉熵损失函数(Cross Entropy Loss)_SongGu1996的博客-优快云博客

二.最小化负对数似然函数理解过程

1.什么是似然函数

2.为什么要对数似然

3.最大化对数似然==最小化负对数似然

详见:一文搞懂极大似然估计 - 知乎


三.联系

1.最小化负对数似然是为了得到最可能满足当前预测结果分布的参数

2.交叉熵损失函数是为了最小化预测分布与真实分布的差距(从KL散度来理解)

3.对于单标签多分类问题,最小化负对数似然等价于交叉熵损失函数(公式推得)

这里我们只给出了单个样本的示例:

Loss=-\sum_{i=1}^{n}y_{i}log\hat{y_{i}}(此处y_{i}是真实标签 one-hot,\hat{y_{i}}是对应标签的概率值)

 因为是单标签多分类任务,我们采用的真实标签是one-hot编码,这意味着上述公式简化为

Loss=-\sum_{i=1}^{n}log\hat{y_{i}}(真实标签为1则保留该项、为0则舍去,\hat{y_{i}}是对应标签的概率值) 

可以看到上述公式与最小化负对数似然函数相同!

当模型输出没有使用softmax时,直接使用负对数似然函数!=交叉熵损失函数;另一个意思也就是,当输出使用softmax后再使用负对数似然函数,其结果等价于交叉熵损失函数


结语:

本文只是为了提供一个理解的过程,并不会给出具体解释,这样会看着很杂乱。当按照上文逐一理解每个点时,你也就理解两个函数的联系

### 最小二乘法 最小二乘法是一种用于解决回归问题的方法,旨在通过最小化观测数据其对应的模型预测值之间差异的平方来找到最佳拟合直线或曲线。具体来说,对于一组含有噪声的数据点 $(x_i, y_i)$ 一个假设函数 $f(x|\theta)$ ,其中 $\theta$ 表示待估参数,则最小二乘准则可表述为寻找使得下式达到最小化的参数向量: $$ J(\theta) = \sum_{i}(y_i-f(x_i|\theta))^2 $$ 该方法广泛应用于线性回归分析中,并且由于计算简单、易于实现等特点,在许多领域得到了广泛应用[^3]。 ```python import numpy as np from sklearn.linear_model import LinearRegression X = [[0], [1], [2]] Y = [0.9, 1.8, 3] model = LinearRegression() model.fit(X,Y) print(f"Coefficients: {model.coef_}") ``` ### 对数似然函数 对数似然函数来源于概率论中的极大估计理论。给定一系列独立同分布样本 ${x^{(1)},...,x^{(m)}}$ 及其标签 ${y^{(1)},...,y^{(m)}}$, 假设它们服从某个已知形式的概率密度/质量函数$p(y|x;\theta)$ , 则可以通过最大化联合概率$\prod p(y^{(i)}|x^{(i)};\theta)$ 来获得最优参数估计值。而直接处理连乘项较为复杂,因此转而考虑取自对数值后的表达式$L=\sum log(p(y^{(i)}|x^{(i)};\theta))$. 此外还存在一种特殊情况——当事件发生次数较多时,泊松过程下的负对数等于高斯分布下的二次型结构,这解释了为什么有时会看到两者间存在一定联系[^2]. ### 交叉熵损失函数 交叉熵最初来自于信息论,用来量化两个离散随机变量之间的距离度量。在机器学习背景下,特别是分类任务里,常用作评估模型输出(通常是经过softmax转换后的概率分布)真实类别标记间的差距大小。公式如下所示: $$ H(p,q)=-\sum_xp(x)\cdot ln(q(x)) $$ 此处$q(x)$代表由算法产生的预测结果;而$p(x)$则是实际发生的事实情况所对应的真实分布。值得注意的是,如果采用sigmoid激活单元构建神经网络并配合使用二元交叉熵作为代价函数的话,那么最终求导过程中将会出现类于逻辑斯特回归里的S形曲线特征[^4]。 ### 区别联系 - **区别** - 最小二乘适用于连续型因变量建模场景; - 极大侧重于从统计角度出发寻求最有可能产生现有观察数据集的那个未知参 数组合方案; - 交叉熵更多见诸于多分类或多标签识别场合之中。 - **联系** 所有上述提到的技术手段都属于广义上的优化策略范畴之内,即试图调整内部权重系数直至整体性能指标趋于收敛稳定状态为止。另外,在某些特定条件下,比如正态分布假定成立的情况下,最小二乘实际上等价于最大估计的一种特例表现形式[^5]。
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值