初步算法梳理(Day3)

信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)

  1. 信息熵
    熵度量事物的不确定性,越不确定的事物,他的熵就越大,随机变量的Y的熵表达式为:H(Y)=−∑j=1mpjlogpjH(Y)=-\sum_{j=1}^mp_jlogp_jH(Y)=j=1mpjlogpj其中m表示了y的m种可能的离散取值,pjp_jpj表示随机变量的Y的概率分布,也即pj=P(Y=yj),j=1,2,...mp_j=P(Y=y_j),j=1,2,...mpj=P(Y=yj),j=1,2,...m
  2. 联合熵
    由单个变量信息熵可推广到多个变量的联合熵,即:H(X,Y)=∑i=1n∑j=1mpijlogijH(X,Y)=\sum_{i=1}^n\sum_{j=1}^mp_{ij}log_{ij}H(X,Y)=i=1nj=1mpijlogij其中pijp_{ij}pij表示随机变量(X,Y)的联合概率分布
  3. 条件熵
    条件熵定义为:给定随机变量X的条件下,随机变量Y的条件概率分布的熵对随机变量X的数学期望,根据定义推导条件熵公式H(Y∣X)=∑i=1nP(X=xi)H(Y∣X=xi)=−∑i=1n∑j=1mP(X=xi,Y=yj)logP(Y=yi∣X=Xi)H(Y|X)=\sum_{i=1}^nP(X=x_i)H(Y|X=x_i)=-\sum_{i=1}^n\sum_{j=1}^mP(X=x_i,Y=y_j)logP(Y=y_i|X=X_i)H(YX)=i=1nP(X=xi)H(YX=xi)=i=1nj=1mP(X=xi,Y=yj)logP(Y=yiX=Xi)条件熵表示再已知的随机变量X的情况下,随机变量Y的不确定性
  4. 信息增益\互信息

信息增益=信息熵-条件熵,即I(X)=H(Y)−H(Y∣X)I(X)=H(Y)-H(Y|X)I(X)=H(Y)H(YX)表示在已知的随机变量x的情况下,随机变量Y的不确定性减少的程度,ID3算法使用信息增益选择最优特征

  1. 基尼不纯度
    基尼不纯度是指从一个数据集中随机选取子集,度量其被错分到其他组里的概率。假设有看k个类别,选中子集为第k个类别的概率为pkp_kpk,则基尼系数表达式为:Gini(X)=∑k=1kpk(1−pk)Gini(X)=\sum_{k=1}^kp_k(1-p_k)Gini(X)=k=1kpk(1pk)基尼系数度量模型不纯度,值越小表示不纯度越低,特征越好。

决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理与应用场景

  1. ID3
    决策树的生成需要考虑特征选择方法和停止条件
    停止条件为:
  • 子集中同属同一类标记y,例如所有的样本同属于0类或者1类,不纯度为0.无需继续向下划分;
  • 自顶向下已使用完所有特征
  • 小于给定信息增益划分的阈值
    ID3使用信息增益进行特征选择,算法过程为:
    输入:数据集D= {(x(1),y1),(x(2),y2).....(x(n),yn)(x^{(1)},y_1),(x^{(2)},y_2).....(x^{(n)},y_n)(x(1),y1),(x(2),y2).....(x(n),yn),其中x(i)=(x1(i),x2(i)..xd(i)x^{(i)}=(x_1^{(i)},x_2^{(i)}..x_d^{(i)}x(i)=(x1(i),x2(i)..xd(i)数据集D有|D|个样本,d个离散特征,特征集合为A={A1,A2...AdA_1,A_2 ... A_dA1,A2...Ad}
    输出:决策树T
  1. C4.5
    针对ID3算法的缺点,提出了C4.5算法
  • 选取分裂特征时采用信息增益比,即信息增益和特征熵的比值:
  • 对连续特征做了离散化处理:
    将连续特征对应的n个样本取值按照从小到大的顺序排列,取相邻两个值的均值作为一个切分点,共有n-1个切分点,分别计算以这n-1个点作为切分点进行离散化后的特征的信息增益,取信息增益最大的点为最佳切分点。
  • 对缺失值的情况分别做了处理:
    (1)在选择划分特征时,部分样本在某些特征上有缺失:
    即在计算各个特征的信息增益时,部分样本在特征上没有取值,无法确定对应的样本量。采取的方法是在计算有缺失样本的特征的信息增益时,将数据依据在该特征上是否缺失分为两部分,对每个样本赋予权重,使用无缺失的部分计算加权信息增益,并乘以系数,系数为无特征缺失样本加权后占加权总样本的比例。
    (2)已经选定了划分特征,根据特征进行分枝时,样本在该特征取值上有缺失:
    将缺失特征取值的样本同时划分入所有的叶子节点,同时按照叶子节点的样本占比赋予权重。
  1. CART分类树
    CART算法在C4.5的基础上进行优化:
  • 在划分特征的选择上采用GiniGiniGini系数:
  • 在连续特征的处理上使用GiniGiniGini系数选择最优划分点
  • CART分类树都是二叉树,特征可以重复使用
  • 剪枝算法(避免过拟合)

回归树原理

ID3与C4.5都只能用于分类,CART即可用于分类,又可用于回归
回归问题使用均方差度量损失,回归树在分裂过程中需要分裂特征及特征值点

决策树防止过拟合手段

1.剪枝;
2.集成方法,如随机森林;
其次,结合停止条件来看:
2.控制满足分裂条件的不纯度的阈值(min_impurity_decrease);
3.控制叶子节点个数(max_leaf_nodes);
4.控制继续下一次划分时叶子节点的最小样本数(min_samples_split)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值