初步算法梳理（Day3）

最新推荐文章于 2024-06-06 01:17:38 发布

原创最新推荐文章于 2024-06-06 01:17:38 发布 · 143 阅读

CC 4.0 BY-SA版权

信息熵
熵度量事物的不确定性，越不确定的事物，他的熵就越大，随机变量的Y的熵表达式为： $H(Y)=−∑j=1mpjlogpjH(Y)=-\sum_{j=1}^mp_jlogp_j$ 其中m表示了y的m种可能的离散取值， $p_j$ 表示随机变量的Y的概率分布，也即 $p_j=P(Y=y_j),j=1,2,...m$
联合熵
由单个变量信息熵可推广到多个变量的联合熵，即： $H(X,Y)=∑i=1n∑j=1mpijlogijH(X,Y)=\sum_{i=1}^n\sum_{j=1}^mp_{ij}log_{ij}$ 其中 $p_{ij}$ 表示随机变量（X，Y）的联合概率分布
条件熵
条件熵定义为：给定随机变量X的条件下，随机变量Y的条件概率分布的熵对随机变量X的数学期望，根据定义推导条件熵公式 $H(Y∣X)=∑i=1nP(X=xi)H(Y∣X=xi)=−∑i=1n∑j=1mP(X=xi,Y=yj)logP(Y=yi∣X=Xi)H(Y|X)=\sum_{i=1}^nP(X=x_i)H(Y|X=x_i)=-\sum_{i=1}^n\sum_{j=1}^mP(X=x_i,Y=y_j)logP(Y=y_i|X=X_i)$ 条件熵表示再已知的随机变量X的情况下，随机变量Y的不确定性
信息增益\互信息

信息增益=信息熵-条件熵，即 $I (X) = H (Y) - H (Y ∣ X)$ 表示在已知的随机变量x的情况下，随机变量Y的不确定性减少的程度，ID3算法使用信息增益选择最优特征

基尼不纯度
基尼不纯度是指从一个数据集中随机选取子集，度量其被错分到其他组里的概率。假设有看k个类别，选中子集为第k个类别的概率为 $p_k$ ,则基尼系数表达式为： $Gini(X)=∑k=1kpk(1−pk)Gini(X)=\sum_{k=1}^kp_k(1-p_k)$ 基尼系数度量模型不纯度，值越小表示不纯度越低，特征越好。

子集中同属同一类标记y，例如所有的样本同属于0类或者1类，不纯度为0.无需继续向下划分；
自顶向下已使用完所有特征
小于给定信息增益划分的阈值
ID3使用信息增益进行特征选择，算法过程为：
输入：数据集D= { $x^{(1)},y_1),(x^{(2)},y_2).....(x^{(n)},y_n)$ ,其中 $x^{(i)}=(x_1^{(i)},x_2^{(i)}..x_d^{(i)}$ 数据集D有|D|个样本，d个离散特征，特征集合为A={ $A_1,A_2 ... A_d$ }
输出：决策树T

选取分裂特征时采用信息增益比，即信息增益和特征熵的比值：
对连续特征做了离散化处理：
将连续特征对应的n个样本取值按照从小到大的顺序排列，取相邻两个值的均值作为一个切分点，共有n-1个切分点，分别计算以这n-1个点作为切分点进行离散化后的特征的信息增益，取信息增益最大的点为最佳切分点。
对缺失值的情况分别做了处理：
（1）在选择划分特征时，部分样本在某些特征上有缺失：
即在计算各个特征的信息增益时，部分样本在特征上没有取值，无法确定对应的样本量。采取的方法是在计算有缺失样本的特征的信息增益时，将数据依据在该特征上是否缺失分为两部分，对每个样本赋予权重，使用无缺失的部分计算加权信息增益，并乘以系数，系数为无特征缺失样本加权后占加权总样本的比例。
（2）已经选定了划分特征，根据特征进行分枝时，样本在该特征取值上有缺失：
将缺失特征取值的样本同时划分入所有的叶子节点，同时按照叶子节点的样本占比赋予权重。