机器学习进阶（二）树模型_bootstrap selection frequency-优快云博客

本文链接：https://blog.youkuaiyun.com/little_yueyue/article/details/114105225

博客介绍了熵相关概念，包括条件熵、相对熵、互信息及熵的关系。阐述决策树生成算法，如ID3、信息增益率等，还提及决策树做回归和过拟合处理。介绍随机森林的Bagging策略、做法、样本相似度和特征重要度计算等。最后给出样本不均衡的常用处理方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

熵

设X是一个取有限个值的离散随机变量，气概率分布为

$P(X=x_i)=p_i, i=1,2,\dots,n$

则随机变量X的熵定义为

$H(X)=-\sum_{i=1}^n p_ilog p_i$
$\left(\int f(x)\log f(x)dx\right)$

条件熵

$H (Y ∣ X) = H (X, Y) - H (X)$
$H (X, Y)$ 发生所包含的熵，减去 $X$ 单独发生包含的熵：在 $X$ 发生的前提下， $Y$ 发生“新”带来的熵

$\begin{aligned} H(Y|X)&=H(X, Y)-H(X) \\ &=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x} p(x) \log p(x) \\ &=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x}\left(\sum_{y} p(x, y)\right) \log p(x) \\ &=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x, y} p(x, y) \log p(x) \\ &=-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)} \\ &\bm{=-\sum_{x, y} p(x, y) \log p(y \mid x)}\\ &=-\sum_{x} \sum_{y} p(x, y) \log p(y \mid x) \\ &=-\sum_{x} \sum_{y} p(x) p(y \mid x) \log p(y \mid x) \\ &=-\sum_{x} p(x) \sum_{y} p(y \mid x) \log p(y \mid x) \\ &=\sum_{x} p(x)\left(-\sum_{y} p(y \mid x) \log p(y \mid x)\right) \\ &=\sum_{x} p(x) H(Y \mid X=x)\\ &\bm{=E_{p(x)}[H(Y \mid X=x)]} \end{aligned}$

相对熵（KL散度）

$p (x), q (x)$ 是X的两个概率分布，则 $p (x)$ 对 $q (x)$ 的相对熵是
$D(p||q)=\sum_x p(x)\log \frac{p(x)}{q(x)}=E_{p(x)}\log \frac{p(x)}{q(x)}.$

一般 $D(p||q)\neq D(q||p)$
若使用 $K L (q ∣ ∣ p)$ ，为了距离最小， $p (x)$ 为零时， $q (x)$ 也为0
若使用 $K L (p ∣ ∣ q)$ ，为了距离最小， $p (x)$ 不为零时， $q (x)$ 也不为0

互信息

两个随机变量 $X, Y$ 的互信息，定义为 $X, Y$ 的联合分布和独立分布乘积的相对熵。
$I (X, Y) = D (P (X, Y) ∣ ∣ P (X) P (Y))$
$I(X,Y)=\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)p(y)}$
若 $X, Y$ 独立，则 $I (X, Y) = 0$
$\begin{aligned} H(Y)-I(X, Y) &=-\sum_{y} p(y) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\ &=-\sum_{y}\left(\sum_{x} p(x, y)\right) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\ &=-\sum_{x, y} p(x, y) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\ &=-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)} \\ &=-\sum_{x, y} p(x, y) \log p(y \mid x) \\ &=H(Y \mid X) \end{aligned}$

熵的关系

$H (Y ∣ X) = H (X, Y) - H (X)$
$H (Y ∣ X) = H (Y) - I (X, Y)$ ，可得 $I (X, Y) = H (Y) - H (Y ∣ X)$
对偶式
$H (X ∣ Y) = H (X, Y) - H (Y)$ , $H (X ∣ Y) = H (X) - I (X, Y)$
$I (X, Y) = H (X) + H (Y) - H (X, Y)$
$H(Y|X)\le H(X),H(X|Y)\le H(Y)$
$I (X, Y) = H (X) + H (Y) - H (X, Y)$
$\begin{aligned} I(X, Y)&=H(X)+H(Y)-H(X, Y) \\ &=\left(-\sum_{x} p(x) \log p(x)\right)+\left(-\sum_{y} p(y) \log p(y)\right)-\left(-\sum_{x, y} p(x, y) \log p(x, y)\right) \\ &=\left(-\sum_{x}\left(\sum_{y} p(x, y)\right) \log p(x)\right)+\left(-\sum_{y}\left(\sum_{x} p(x, y)\right) \log p(y)\right)+\sum_{x, y} p(x, y) \log p(x, y) \\ &=-\sum_{x, y} p(x, y) \log p(x)-\sum_{x, y} p(x, y) \log p(y)+\sum_{x, y} p(x, y) \log p(x, y) \\ &=\sum_{x, y} p(x, y)(\log p(x, y)-\log p(x)-\log p(y)) \\ &=\sum_{x, y} p(x, y)\left(\log \frac{p(x, y)}{p(x) p(y)}\right) \end{aligned}$

决策树

决策树学习采用的是自顶向下的递归方法，其基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子节点处的熵值为零，此时每个叶节点中的实例都属于同一类。
决策树生成算法如下：

ID3 (Iterative Dichotomiser)
信息增益最大化，即 $I (X, Y) = H (Y) - H (Y ∣ X)$ 最大（互信息最大，表明两个特征越相关，据此我们可用树模型对特征排序）
C4.5
CART(Classification And Regression Tree)

ID3

信息增益：得知特征A的信息而使得类X的信息的不确定性减少的程度。
当熵和条件熵中的概率由数据估计得到时，所对应的熵和条件熵分别称为经验熵和经验条件熵。
$H(D)=-\sum_{k=1}^{K} \frac{\left|C_{k}\right|}{|D|} \log \frac{\left|C_{k}\right|}{|D|}$
$H(D|A)=-\sum_{i=1}^n \frac{|D_i|}{|D|} H(D_i)=-\sum_{i=1}^n \frac{|D_i|}{|D|}\sum_{k=1}^K \frac{|D_{ik}|}{|D_i|} \log \frac{|D_{ik}|}{|D_i|}$
特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$ ，定义为集合 $D$ 的经验熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差 $g (D, A) = H (D) - H (D ∣ A)$ 即为训练数据集D和特征A的互信息。( $I (X, Y) = H (Y) - H (Y ∣ X)$ )
步骤
step1：计算特征A对数据集D的经验条件熵H(D|A)
step2：计算特征A的信息增益：g(D,A)=H(D)–H(D|A)
step3：遍历所有特征，选择信息增益最大的特征作为当前的分裂特征

信息增益率

$g_{\mathrm{r}}(\mathrm{D}, \mathrm{A})=\mathrm{g}(\mathrm{D}, \mathrm{A}) / \mathrm{H}(\mathrm{A})$

Gini 系数：

$\begin{aligned} \operatorname{Gini}(p)&=\sum_{k=1}^{K} p_{k}\left(1-p_{k}\right)\\ &=1-\sum_{k=1}^{K} p_{k}^{2} \\ &=1-\sum_{k=1}^{K}\left(\frac{\left|C_{k}\right|}{|D|}\right)^{2} \end{aligned}$
(将 $f(x)=-\log x$ 在 $x = 1$ 处展开，得到 $f (x) = 1 - x$ 带入
$H(X)=-\sum_{i=1}^n p_ilog p_i \approx -\sum_{i=1}^n p_i(1-p_i),$ 从而Gini系数可以作为熵的近似)

分类决策树评价函数

各叶结点包含的样本数目不同，可使用样本数加权求熵和作为评价函数
$C(T)=\sum_{t\in leaf} N_t h(t)$
对所有叶结点的熵求和，该值越小说明对样本的分类越精确。
由于该评价函数越小越好，所以，可以称之为“损失函数”。

决策树做回归

用特征 $j$ 对某个节点在 $s$ 处进行分割，小于 $s$ 的分入 $R_{1}$ 子节点，大于 $s$ 的分入 $R_{2}$ 子节点，两个子结点的均值分别为 $\hat{c}_{1}=\frac{1}{N_{1}} \sum_{x_{i} \in R_{1}(j, s)} y_{i} ,\qquad \hat{c}_{2}=\frac{1}{N_{2}} \sum_{x_{i} \in R_{2}(j, s)} y_{i}$
计算该过程的损失函数 $L (j, s)$ 为
$\begin{aligned} L(j, s)=\sum_{x_{i} \in R_{1}(j, s)}\left(y_{i}-\hat{c}_{1}\right)^{2}+\sum_{x_{i} \in R_{2}(j, s)}\left(y_{i}-\hat{c}_{2}\right)^{2} \end{aligned}$
对于阈值 $s$ 的选择，挑选方式如下

将特征 $j$ 的最大值 $max_j$ 和最小值 $min_j$ ，等分来挑选
通过总共的 $N$ 个样本，在 $N - 1$ 个值中挑选
在特征 $j$ 的最大值 $max_j$ 和最小值 $min_j$ 之间多次随机挑选（效果较好）

决策树的过拟合

剪枝

原来的损失函数 $C(T)=\sum_{t\in leaf} N_t H(t)$ ，修正为 $C_{\alpha}(T)=\sum_{t\in leaf} N_t H(t)+_{\alpha}|T_{leaf}|$
假定当前对以 $r$ 为根的子树剪枝，剪枝后，只保留 $r$ 本身而删掉所有的叶子。
剪枝后的损夫函数: $C_{\alpha}(r)=C(r)+\alpha$
剪枝前的损失函数 $C_{\alpha}(R)=C(R)+\alpha \cdot |R_{\text {leaf }}|$
即可求得剪枝系数 $\alpha$ ： $\alpha=\frac{C(r)-C(R)}{|R_{\text {leaf }}|-1}$
对于给定的决策树 $T_0$ 剪枝步骤:
step1：计算所有内部节点的剪枝系数；
step2：查找最小剪枝系数的结点，剪枝得决策树 $T_k$ ；
step3：重复以上步骤，直到决策树 $T_k$ 只有1个结点；
step4：得到决策树序列 $T_0,T_1,T_2, \dots ,T_k$
step5：可以使用评价函数 $C(T)=\sum_{t\in leaf} N_t H(t)$ ，通过验证样本集选择最优子树。

随机森林

用树的数量来消除单棵树过拟合带来的问题。
（我们认为分类错误是噪音带来的，而噪音是偶然的，多棵决策树发生的概率小）

随机森林

Bagging的策略

step1. 从总共的 $N$ 样本集中重采样(有放回的)选出 $N$ 个样本。
step2. 在所有属性上，对这n个样本建立分类器( $I D 3 、 C 4.5 、 C A R T 、 S V M 、 L o g i s t i c$ 回归等，弱分类器效果往往更好)
step3. 重复以上两步m次，即获得了m个分类器
step4. 将数据放在这m个分类器上，最后根据这m个分类器的投票结果，决定数据属于哪一类

note:

一次采样中没有被抽到的概率为 $1-\frac{1}{N}$ ， $N$ 次都没选中的占比为 $(1-\frac{1}{N})^N=\frac{1}{e} \approx 36.8\%，$ 称这部分数据为袋外数据OOB（out of bag)，可用于取代测试集计算误差。
同通过设置参数oob_score=True，模型用model.oob_score_可以得到袋外数据上的准确率得分
采样不一定要也采 $N$ 个，可以比样本集少
得到的模型参数是无偏的

随机森林做法

随机森林在bagging基础上做了修改。
step1：从样本集中用Bootstrap采样选出 $n$ 个样本；
step2：从所有属性中随机选择k个属性，选择最佳分割属性作为节点建立CART决策树；
step3：重复以上两步 $m$ 次，即建立了 $m$ 棵 $C A R T$ 决策树:
step4：这m个CART形成随机森林，通过投票表决结果，决定数据属于哪一类

RF计算样本间相似度

原理：若两样本同时出现在相同叶结点的次数越多，则二者越相似。
算法过程：
step1：记样本个数为 $N$ ，初始化 $N \times N 的$ 零矩阵 $S$ ， $S [i, j]$ 表示样本i和样本j的相似度。
step2：对于 $m$ 棵决策树形成的随机森林，遍历所有决策树的所有叶子结点：
记该叶结点包含的样本为 $s a m p l e [1, 2, \dots, k]$ ，则 $S [i] [j]$ 累加1，即样本 $\in sample[1,2,…k]$ 则次数增加1次。
step3：遍历结束，则 $S$ 为样本间相似度矩阵。

RF计算特征重要度

随机森林是常用的衡量特征重要性的方法。指标可选为：

selection frequency 特征经过结点的数目
gini importance 经过结点的gini系数下降程度
permutation importance 随机替换一列数据，重新建立决策树，计算新模型的正确率变化，从而考虑这一列特征的重要性。

RF做异常检测

$i T R E E$ ：随机选择特征、随机选择分割点，生成一定深度的决策树iTree，再由这若干颗iTree组成iForest，计 $i T r e e$ 中样本 $x$ 从根到叶子的长度 $f (x)$ ，计 $i F o r e s t$ 中 $f (x)$ 的总和 $F (x)$
原理：若样本x为异常值（偏离大多数样本），它应在大多数iTree中很快从根到达叶子，即F(x)较小。
在样本很大的情况，一般先做一下降采样，效果会更好

投票机制

简单投票机制：

一票否决(一致表决)
少数服从多数（有效多数(加权）)
阈值表决

贝叶斯投票机制

示例：若样本被采样的次数特别少，可用以下公式光滑处理：
$WR=\frac{v}{v+m}R+\frac{v}{v+m}C$
WR：加权得分(weightedrating)
R：对该样本的投票的平均得分(Rating)
C：所有样本的平均得分
v：该样本的投票总数
m：所有样本中最低的投票总数根据总投票人数

样本不均衡的常用处理方法

假定样本数目A类比B类多，且严重不平衡：

对A类欠采样Undersampling 如：
 随机欠采样  A类分成若干子类，分别与B类进入ML模型  基于聚类的A类分割
对B类过采样Oversampling
可避免欠采样造成的信息丢失，但同时不可避免地增加了B类中的噪音，效果一般不如对A欠采样。
B类数据合成Synthetic Data Generation 如：
 随机插值得到新样本  SMOTE(Synthetic Minority Over-sampling Technique)
代价敏感学习Cost Sensitive Learning
一般降低A类权值，提高B类权值