熵的概念

https://blog.youkuaiyun.com/ouyangfushu/article/details/85163997

 

1、信息

引用香农的话,信息是用来消除随机不确定性的东西,则某个类(xi)的信息定义如下:

样本概率越高信息量越小,自信息与取到的概率成反比

信息熵便是信息的期望值,熵的表达式为:

Gini系数的表达式为:

主要区别在于,熵达到峰值的过程要相对慢一些。因此,熵对于混乱集合的判罚要更重一些。 
这里写图片描述

 

自信息

自信息(英语:self-information),又译为信息本体,由克劳德·香农提出,用来衡量单一事件发生时所包含的信息量多寡。它的单位是bit,或是nats。

自信息的含义包括两个方面:

1.自信息表示事件发生前,事件发生的不确定性。

2.自信息表示事件发生后,事件所包含的信息量,是提供给信宿的信息量,也是解除这种不确定性所需要的信息量

互信息

互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性 。

离散随机事件之间的互信息:

换句话说就是,事件x,y之间的互信息等于“x的自信息”减去 “y条件下x的自信息”。  I(x)表示x的不确定性,I(x|y)表示在y发生条件下x的不确定性,I(x;y)表示当y发生后x不确定性的变化。  两个不确定度之差,是不确定度消除的部分,代表已经确定的东西,实际就是由y发生所得到的关于x的信息量。互信息可正可负(但是自信息一定是正的),所以就有了任何两事件之间的互信息不可能大于其中任一事件的自信息。(毕竟I(x;y)=I(y;x)=I(x)-I(x|y)=I(y)-I(y|x),  I(x|y)和I(y|x)皆大于0  )

  如果x事件提供了关于另一事件y的负的信息量,说明x的出现不利于y的出现。

  另一个角度,如果x和y统计独立,即I(x|y)=I(y|x)=0. 则就会出现I(x;y) = I(x)  这种情况!,这也说明了另一个问题,就是一个事件的自信息是任何其他事件所能提供的关于该事件的最大信息量。

 

信息熵:

含义:

1.在信源输出后,表示每个信源符号所提供的平均信息量(自信息的期望)。

2.在信源输出前,表示信源的平均不确定性。

3.表示信源随机性大小,H(x)大的,随机性大

4.当信源输出后,不确定性解除,熵可视为解除信源不确定性所需的信息量。

信息熵的计算:

  离散信源的熵等于所对应的有根概率树上的所有节点(包括根节点,不包括叶)的分支熵用该节点概率加权的和,即H(x)=∑q(ui)H(ui) 式中q(ui)为节点ui的概率,H(ui)为节点ui的分支熵。

 条件熵:

另外  【 H(1/2) = 2* -1*(1/2)log2(1/2) = 1    H(1/3)=3* -1*(1/3)log2(1/3) = log23 ≈1.585 bit/符号】

 

联合熵:

另外【 H(1/3,1/3,1/3)=3* -1*(1/3)   (1/3) = log23 ≈1.585 bit/符号  ,H()  的括号中如果只有一个分数1/2,那么就代表是 H(1/2,1/2)  毕竟2*1/2=1,同理H(1/3)代表 H(1/3,1/3,1/3)  】

熵的基本性质:

1.对称性 2.非负性 3.拓展性  4.可加性 

 有以下表述:

5.极值性

离散最大熵定理:对于有限离散随机变量集合,当集合中的事件等概率发生时,熵达到最大值。可由散度不等式证明:

即H(x)≤logn,仅当P(x)等概率分布时等号成立。

6.确定性 :当随机变量集合中任一事件概率为1时,熵就为0.      换个形式来说,从总体来看,信源虽含有许多消息,但只有一个消息几乎必然出现,而其他消息几乎都不出现,那么,这是一个确知信源,从熵的不确定性概念来讲,确知信源的不确定性为0.

7上凸性:H(p)=H(p1,p2,p3,...,pn)是(p1,p2,p3,...,pn)的严格上凸函数。

 

各类熵之间的关系:

1.条件熵与信息熵之间的关系

H(Y|X) ≤ H(Y)   这说明了:在信息处理的过程中,条件越多,熵越小。

2.联合熵和信息熵的关系

H(X1X2...XN)≤∑i=1N H(Xi)  当且仅当Xi相互独立时,等式成立。

 

熵函数的唯一性:

如果熵函数满足:(1)是概率的连续函数  (2)信源符号等概率时是n(信源符号数)的增函数(H(X)=log2n);  (3)可加性  (H(XY) = H(X) + H(Y|X)  =H(Y) + H(X|Y)   )

那么,熵函数的表示是唯一的,即只与定义公式相差一个常数因子。

 

 

 

 

~~~~~~~~~~~~~

~~~~~~~~~~~~~~~~~~

 

 

<think>好的,用户现在问的是如何理解决策树里的信息概念。首先,我需要回顾一下决策树和信息的基础知识。信息是信息论中的一个重要概念,由香农提出,用来度量信息的不确定性。在决策树中,用来帮助选择最佳的属性进行数据划分,从而构建出高效的树结构。 用户可能已经对决策树有一定的了解,但可能不太清楚在其中具体的作用。他们可能想知道是如何计算的,以及为什么选择作为划分标准。此外,用户可能希望了解与其他指标(如基尼系数)的区别,或者在实际应用中如何具体应用来优化决策树。 需要先解释信息的基本定义,可能从信息论的角度入手,说明如何衡量不确定性。然后结合决策树的上下文,说明在分类问题中,如何反映数据集的纯度。例如,当一个数据集的类别分布越均匀,值越高,说明不确定性越大;反之,当数据集属于同一类别时,值为零,表示完全确定。 接下来,可能需要给出的数学公式,并详细解释每个部分的含义。例如,H(X) = -Σ p(x) log2 p(x),这里p(x)是某个类别出现的概率。通过具体例子,比如二分类问题,演示如何计算不同分布情况下的值变化,让用户更直观地理解。 然后,需要说明在决策树算法中,如何利用来选择最佳划分属性。通常是通过信息增益,即父节点的减去子节点的加权平均,信息增益越大,说明该属性划分后的不确定性减少得越多,因此选择该属性进行分裂。这里可能需要比较信息增益与其他划分准则,如基尼指数的异同,帮助用户全面理解。 用户可能会有疑问,比如为什么使用对数底数为2,或者如何处理多分类问题,这时候需要解释对数的选择是为了将的单位定义为比特,而多分类情况下,的计算方式类似,只是求和项更多。此外,可能还要提到信息增益比(增益率)的概念,用于解决信息增益偏向于选择多值属性的问题。 另外,用户可能想知道实际应用中的注意事项,比如过拟合问题,或者如何处理连续值属性。这时候可以简要提及决策树的剪枝和离散化处理,但重点还是保持在信息的解释上。 最后,通过一个实际的例子,比如根据天气预测是否打网球的案例,逐步展示如何计算和信息增益,帮助用户将理论应用到具体问题中。同时,总结在决策树中的作用和优势,确保用户能够全面理解这一概念。</think>理解决策树中的**信息**概念需要从信息论和概率论入手,下面通过**分步解析+实例演示**说明其本质: --- ### **1. 信息的直观理解** 信息(Entropy)是衡量**系统混乱程度**的指标: - **值越大** → 数据越混乱(不确定性高) - **值越小** → 数据越纯净(确定性高) **生活类比**: 假设你有一个装有红球和蓝球的盒子: - **情况1**:全是红球 → 随手一抓必是红球(确定性高,=0) - **情况2**:红球和蓝球各占50% → 结果最难预测(混乱度最高,=1) --- ### **2. 数学定义** 对于一个包含$K$类样本的数据集$D$,其计算为: $$ H(D) = -\sum_{k=1}^{K} p_k \log_2 p_k $$ - $p_k$:数据集中第$k$类样本的**比例** - $\log_2$:以2为底的对数(信息量单位为**比特**) --- ### **3. 在决策树中的作用** 决策树通过**降低**来划分数据: 1. 计算父节点的原始 2. 测试不同特征划分后的子节点 3. 选择使**信息增益最大**的划分方式 (信息增益 = 父节点 - 子节点加权平均) --- ### **4. 实例计算(二分类问题)** 假设数据集包含10个样本: - 6个"是"类(正例) - 4个"否"类(负例) **计算**: $$ H(D) = -\left( \frac{6}{10} \log_2 \frac{6}{10} + \frac{4}{10} \log_2 \frac{4}{10} \right) \approx 0.971 \text{比特} $$ --- ### **5. 特征划分后的变化** 假设用特征A划分后: - 分支1:5个样本(4个"是",1个"否") → $H_1 \approx 0.722$ - 分支2:5个样本(2个"是",3个"否") → $H_2 \approx 0.971$ **加权平均**: $$ H_{new} = \frac{5}{10} \times 0.722 + \frac{5}{10} \times 0.971 = 0.8465 $$ **信息增益**: $$ Gain = 0.971 - 0.8465 = 0.1245 $$ --- ### **6. 关键理解要点** | 概念 | 说明 | 决策树中的应用 | |-----------|-----------------------------------------|----------------------------------| | 概率分布 | 不同类别出现的概率决定了的大小 | 优先选择能产生更陡峭概率分布的特征划分 | | 信息增益 | 减少的量代表通过特征划分获得的信息量 | 选择增益最大的特征作为当前节点的划分标准 | | 与基尼系数对比 | 基尼系数计算更快,但对概率变化更敏感(对数运算放大差异) | 实际应用中两者效果接近,CART用基尼,ID3/C4.5用 | --- ### **7. 实际应用技巧** 1. **停止条件**:当节点低于阈值(如0.01)时停止分裂 2. **连续值处理**:离散化后计算变化 3. **多分类问题**:公式中的$k$扩展到多类别 4. **过拟合防范**:通过预剪枝限制最大深度或最小样本数 --- ### **示例代码(Python计算)** ```python import numpy as np def entropy(class_probs): return -np.sum(class_probs * np.log2(class_probs + 1e-10)) # +1e-10防止log(0) # 原始数据:6个"是",4个"否" p = np.array([6/10, 4/10]) print(f"初始值: {entropy(p):.3f} bits") # 输出 0.971 ``` 通过理解的动态变化过程,就能掌握决策树如何像"剥洋葱"一样层层筛选最优特征。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值