信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)
- 信息熵
熵度量事物的不确定性,越不确定的事物,他的熵就越大,随机变量的Y的熵表达式为:H(Y)=−∑j=1mpjlogpjH(Y)=-\sum_{j=1}^mp_jlogp_jH(Y)=−j=1∑mpjlogpj其中m表示了y的m种可能的离散取值,pjp_jpj表示随机变量的Y的概率分布,也即pj=P(Y=yj),j=1,2,...mp_j=P(Y=y_j),j=1,2,...mpj=P(Y=yj),j=1,2,...m - 联合熵
由单个变量信息熵可推广到多个变量的联合熵,即:H(X,Y)=∑i=1n∑j=1mpijlogijH(X,Y)=\sum_{i=1}^n\sum_{j=1}^mp_{ij}log_{ij}H(X,Y)=i=1∑nj=1∑mpijlogij其中pijp_{ij}pij表示随机变量(X,Y)的联合概率分布 - 条件熵
条件熵定义为:给定随机变量X的条件下,随机变量Y的条件概率分布的熵对随机变量X的数学期望,根据定义推导条件熵公式H(Y∣X)=∑i=1nP(X=xi)H(Y∣X=xi)=−∑i=1n∑j=1mP(X=xi,Y=yj)logP(Y=yi∣X=Xi)H(Y|X)=\sum_{i=1}^nP(X=x_i)H(Y|X=x_i)=-\sum_{i=1}^n\sum_{j=1}^mP(X=x_i,Y=y_j)logP(Y=y_i|X=X_i)H(Y∣X)=i=1∑nP(X=xi)H(Y∣X=xi)=−i=1∑nj=1∑mP(X=xi,Y=yj)logP(Y=yi∣X=Xi)条件熵表示再已知的随机变量X的情况下,随机变量Y的不确定性 - 信息增益\互信息
信息增益=信息熵-条件熵,即I(X)=H(Y)−H(Y∣X)I(X)=H(Y)-H(Y|X)I(X)=H(Y)−H(Y∣X)表示在已知的随机变量x的情况下,随机变量Y的不确定性减少的程度,ID3算法使用信息增益选择最优特征
- 基尼不纯度
基尼不纯度是指从一个数据集中随机选取子集,度量其被错分到其他组里的概率。假设有看k个类别,选中子集为第k个类别的概率为pkp_kpk,则基尼系数表达式为:Gini(X)=∑k=1kpk(1−pk)Gini(X)=\sum_{k=1}^kp_k(1-p_k)Gini(X)=k=1∑kpk(1−pk)基尼系数度量模型不纯度,值越小表示不纯度越低,特征越好。
决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理与应用场景
- ID3
决策树的生成需要考虑特征选择方法和停止条件
停止条件为:
- 子集中同属同一类标记y,例如所有的样本同属于0类或者1类,不纯度为0.无需继续向下划分;
- 自顶向下已使用完所有特征
- 小于给定信息增益划分的阈值
ID3使用信息增益进行特征选择,算法过程为:
输入:数据集D= {(x(1),y1),(x(2),y2).....(x(n),yn)(x^{(1)},y_1),(x^{(2)},y_2).....(x^{(n)},y_n)(x(1),y1),(x(2),y2).....(x(n),yn),其中x(i)=(x1(i),x2(i)..xd(i)x^{(i)}=(x_1^{(i)},x_2^{(i)}..x_d^{(i)}x(i)=(x1(i),x2(i)..xd(i)数据集D有|D|个样本,d个离散特征,特征集合为A={A1,A2...AdA_1,A_2 ... A_dA1,A2...Ad}
输出:决策树T
- C4.5
针对ID3算法的缺点,提出了C4.5算法
- 选取分裂特征时采用信息增益比,即信息增益和特征熵的比值:
- 对连续特征做了离散化处理:
将连续特征对应的n个样本取值按照从小到大的顺序排列,取相邻两个值的均值作为一个切分点,共有n-1个切分点,分别计算以这n-1个点作为切分点进行离散化后的特征的信息增益,取信息增益最大的点为最佳切分点。 - 对缺失值的情况分别做了处理:
(1)在选择划分特征时,部分样本在某些特征上有缺失:
即在计算各个特征的信息增益时,部分样本在特征上没有取值,无法确定对应的样本量。采取的方法是在计算有缺失样本的特征的信息增益时,将数据依据在该特征上是否缺失分为两部分,对每个样本赋予权重,使用无缺失的部分计算加权信息增益,并乘以系数,系数为无特征缺失样本加权后占加权总样本的比例。
(2)已经选定了划分特征,根据特征进行分枝时,样本在该特征取值上有缺失:
将缺失特征取值的样本同时划分入所有的叶子节点,同时按照叶子节点的样本占比赋予权重。
- CART分类树
CART算法在C4.5的基础上进行优化:
- 在划分特征的选择上采用GiniGiniGini系数:
- 在连续特征的处理上使用GiniGiniGini系数选择最优划分点
- CART分类树都是二叉树,特征可以重复使用
- 剪枝算法(避免过拟合)
回归树原理
ID3与C4.5都只能用于分类,CART即可用于分类,又可用于回归
回归问题使用均方差度量损失,回归树在分裂过程中需要分裂特征及特征值点
决策树防止过拟合手段
1.剪枝;
2.集成方法,如随机森林;
其次,结合停止条件来看:
2.控制满足分裂条件的不纯度的阈值(min_impurity_decrease);
3.控制叶子节点个数(max_leaf_nodes);
4.控制继续下一次划分时叶子节点的最小样本数(min_samples_split)。