有关熵的几个概念 及 最大似然和交叉熵的一致性

本文介绍了随机事件的信息量,特别是自信息的概念,它描述了不确定性的程度。接着,讨论了熵、联合熵、互信息、条件熵和交叉熵等信息论中的关键概念。此外,还探讨了交叉熵与最大似然损失函数的一致性,特别是在二分类问题中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

随机事件的信息量

  为了描述一个随机事件的信息量,定义了自信息。
  自信息表示不确定性的程度。
  一个事件确定发生,是没有信息量的;而一个事件发生的概率越小,则其信息量越大。
  未知所带来的不确定性,就是自信息要描述的目标。
  自信息:  

I(x)=logi1p(x)
   notice:这里的自信息量并不代表信息作用的大小。一般以2为基底。

  熵:自信息的期望。  

H(x)=ilog21p(xi)
  所有可能情况的信息量的加权均值。(各种不确定情况的平均情况)
  同时,熵可以表示系统或者变量的混乱程度,越混乱,熵越大。均匀分布时,熵最大。
   熵在均匀分布时取得最大值,证明如下:
  已知:  
H(x)=iln1p(xi),s.t.ip(xi)=1
  由拉格朗日法构造函数:
F(x)=iln1p(xi)+λ(ip(xi)1)

  分别对 p(xi) λ 求偏导数:  
Fp(xi)=[ln1p(xi)+p(xi)11p(xi)1p2(xi)]+λ=lnp(xi)1+λ=0Fλ=ip(xi)1=0
  求得:  
p(xi)=eλ1ip(xi)1=0=>neλ1=1=>p(xi)=1n
  得证,熵当且仅当 p(xi)=1n 时,存在极值,这里是极大值。
  在信息论与编码理论中,熵描述一个符号变量的可被编码的程度。
   举个例子,计算自信息和熵。
   x 满足二项分布, xB(n,p=0.8) , 则 p(x=1)=0.8
  其自信息为 I(x=1)=log213/5
  其熵为 H(x)=35log2135+25log2125
  若对抽样样本,大概估计其熵和自信息。
   x1,1,1,1,0 , 则自信息 I(x=1)=log253
  其熵:
<think>好的,用户想了解如何从最大似然估计推导出交叉熵损失函数,特别是数学证明方面的内容。我需要先回忆一下相关知识,确保步骤正确。 首先,最大似然估计(MLE)的基本思想是找到参数使得观测数据出现的概率最大。在分类问题中,假设数据服从某个分布,比如多项分布。对于分类模型,比如逻辑回归,输出通常是概率分布,而真实标签可以表示为one-hot编码。 接下来,交叉熵损失函数衡量的是两个概率分布之间的差异。在机器学习中,通常一个是模型预测的概率分布,另一个是真实的分布。推导的关键在于将MLE的似然函数转化为对数似然,然后与交叉熵的形式进行比较。 可能需要从定义出发,写出似然函数,取对数,然后通过简化式子,发现其与交叉熵的关系。需要注意的是,交叉熵的公式是负的对数似然的期望,而损失函数需要最小化,因此取负号。 另外,用户提供的引用中提到MLE交叉熵的等价性,需要明确这种等价性是如何在数学上体现的。可能需要具体例子,比如二分类或多分类的情况,来展示推导过程。 还要注意数学符号的正确性,比如概率分布的对数,求与期望的关系,以及如何将最大化似然转换为最小化损失函数。可能涉及到的步骤有:定义模型输出概率、构建似然函数、对数转换、求变为平均(即期望)、添加负号转化为最小化问题。 最后,确保解释清晰,步骤详细,适合机器学习或深学习的学习者理解数学基础。同时,生成的相关问题要围绕推导过程、应用场景、与其他损失函数的比较等,帮助用户深入思考。</think>### 最大似然估计推导交叉熵损失函数的数学证明 #### 1. **最大似然估计(MLE)的定义** 最大似然估计的目标是找到参数 $\theta$,使得观测数据 $D$ 出现的概率最大。对于独立同分布数据,似然函数为: $$ L(\theta) = \prod_{i=1}^N p(y^{(i)} | x^{(i)}; \theta) $$ 其中 $p(y|x;\theta)$ 是模型预测的条件概率,$N$ 是样本数量。 --- #### 2. **分类问题的建模** 以多分类问题为例,假设真实标签 $y$ 是 one-hot 编码(例如 $y^{(i)} \in \{0,1\}^K$),模型输出的概率分布为 $\hat{y}^{(i)} = [\hat{y}_1^{(i)}, \dots, \hat{y}_K^{(i)}]$。 根据多项分布,单个样本的似然为: $$ p(y^{(i)} | x^{(i)}; \theta) = \prod_{k=1}^K \hat{y}_k^{(i) y_k^{(i)}} $$ --- #### 3. **对数似然函数** 为简化计算,对似然函数取对数: $$ \ln L(\theta) = \sum_{i=1}^N \sum_{k=1}^K y_k^{(i)} \ln \hat{y}_k^{(i)} $$ 最大化对数似然等价于最小化负对数似然: $$ -\ln L(\theta) = -\sum_{i=1}^N \sum_{k=1}^K y_k^{(i)} \ln \hat{y}_k^{(i)} $$ --- #### 4. **交叉熵的定义** 交叉熵衡量两个分布 $y$(真实分布) $\hat{y}$(预测分布)之间的差异: $$ H(y, \hat{y}) = -\sum_{k=1}^K y_k \ln \hat{y}_k $$ 对 $N$ 个样本取平均后,得到交叉熵损失函数: $$ \mathcal{L} = -\frac{1}{N} \sum_{i=1}^N \sum_{k=1}^K y_k^{(i)} \ln \hat{y}_k^{(i)} $$ --- #### 5. **等价性证明** 通过对比步骤3步骤4可得: - **负对数似然**的求形式与**交叉熵损失**的求形式完全一致。 - 在机器学习中,最小化交叉熵损失等价于最大化似然函数,因此两者在数学上等价[^1][^2]。 --- #### 6. **特例:二分类问题** 对于二分类($K=2$),假设 $\hat{y}_1 = \sigma(z)$(sigmoid函数输出),则交叉熵简化为: $$ \mathcal{L} = -\frac{1}{N} \sum_{i=1}^N \left[ y^{(i)} \ln \sigma(z^{(i)}) + (1-y^{(i)}) \ln (1-\sigma(z^{(i)})) \right] $$ 这与逻辑回归的负对数似然一致。 --- ### 关键结论 - **交叉熵损失函数是负对数似然函数的特例**,通过最小化交叉熵,模型参数 $\theta$ 被优化以最大化数据出现的概率。 - 这种等价性解释了为什么交叉熵在分类任务中比均方误差(最小二乘)更有效,因为它直接匹配概率分布的比较需求。 ---
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值