机器学习总结一:Bagging之决策树、随机森林原理与案例

本文详细介绍了决策树的原理,包括信息增益、信息增益率和基尼系数的选择,以及随机森林的原理和参数调优。通过Titanic数据集实例演示了决策树和随机森林在生存预测中的应用,对比了两者在模型性能和稳定性上的差异。

机器学习算法总结

一、Bagging之决策树、随机森林原理与案例

二、boosting之GBDT、XGBT原理推导与案例

三、SVM原理推导与案例

四、逻辑回归与反欺诈检测案例

五、聚类之K-means


一、Bagging之决策树、随机森林原理与案例

1. 决策树

1.1 简介

  1. 决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据种总结出决策规则,并利用树状图结构呈现这些规则,以解决分类和回归问题。
  2. 决策树算法研究核心内容:
    • 如何从数据集中找出最佳分支点
    • 如何让决策树停止生长,防止过拟合

1.2 分支原理

  1. 使用“贪心策略”,通过每一次局部分裂最优,接近全局最优树

  2. 分类树

    1. 预测结果 = 叶子节点上少数服从多数

    2. 不纯度:用于衡量最佳分枝的指标,分裂后的不纯度越低越好。

    3. 不纯度计算

      • 信息增益(ID3)
        1. 信 息 量 定 义 f ( i ) : = − l o g 2 P i 2. 信 息 熵 : E n t r o p y ( t ) = ∑ i = 1 c p i ( − l o g 2 p i ) 注 : 某 一 类 别 比 例 ∗ 其 类 别 所 对 应 的 信 息 量 ( 相 当 于 整 个 概 率 模 型 系 统 期 望 / 加 权 求 和 , 范 围 [ 0 , 1 ] ) 3. 信 息 增 益 = 父 节 点 信 息 熵 − 对 应 所 有 子 节 点 信 息 熵 加 权 平 均 I n f o r m a t i o n G a i n = E n t r o p y ( 父 节 点 ) − ∑ t = 1 T N t N E n t r o p y ( 子 节 点 ) T : 父 节 点 分 裂 后 子 节 点 个 数 ; N t N : 分 裂 后 t 节 点 上 的 样 本 数 / 样 本 总 数 ( 即 分 裂 前 父 节 点 样 本 数 ) I D 3 算 法 缺 点 : 分 支 度 越 高 的 离 散 变 量 往 往 子 节 点 总 信 息 熵 越 小 ( 比 如 训 练 集 中 I D 字 段 , 分 支 , 每 个 i d 分 裂 后 对 应 的 子 节 点 不 纯 度 都 为 0 ) 缺 失 值 和 连 续 值 不 能 处 理 没 有 剪 枝 操 作 , 容 易 过 拟 合 \begin{array}{l} 1.信息量定义f(i):=-log_2P_i\\ 2.信息熵:Entropy(t)=\sum_{i=1}^cp_i(-log_2p_i)\\ \quad 注:某一类别比例*其类别所对应的信息量(相当于整个概率模型系统期望/加权求和,范围[0,1])\\ \\3.信息增益 = 父节点信息熵 - 对应所有子节点信息熵加权平均\\ \quad InformationGain = Entropy(父节点) - \sum_{t=1}^T\frac{N_t}{N}Entropy(子节点)\\ \quad T: 父节点分裂后子节点个数; \frac{N_t}{N}: 分裂后t节点上的样本数/样本总数(即分裂前父节点样本数)\\ \\ ID3算法缺点:\\ \quad \quad 分支度越高的离散变量往往子节点总信息熵越小(比如训练集中ID字段,分支,每个id分裂后对应的子节点不纯度都为0)\\ \quad \quad 缺失值和连续值不能处理\\ \quad \quad 没有剪枝操作,容易过拟合 \end{array} 1.f(i):=log2Pi2.Entropy(t)=i=1cpi(log2pi)/[0,1]3.=InformationGain=Entropy()t=1TNNtEntropy()T:NNt:t/()ID3(IDid0)

      • 信息增益率(C4.5)
        1. 目 的 : 修 正 信 息 增 益 对 分 支 度 高 的 特 征 的 偏 好 2. 信 息 增 益 率 : g a i n r a t i o = I n f o r m a t i o n G a i n I n f o r m a t i o n V a l u e ( 使 用 分 支 度 对 信 息 增 益 偏 好 分 支 度 高 的 特 征 进 行 惩 罚 ) 3. 分 支 度 ( I V : I n f o r m a t i o n V a l u e ) : I n f o r m a t i o n V a l u e = − ∑ i = 1 k p ( v i ) l o g 2 p ( v i ) i : 表 示 父 节 点 的 第 i 个 子 节 点 ; v i : 第 i 个 子 节 点 的 样 本 数 ; p ( v i ) : 第 i 个 子 节 点 的 样 本 数 占 父 节 点 样 本 数 相 当 于 衡 量 整 个 分 裂 情 况 的 信 息 熵 , 分 支 度 越 高 , 分 裂 越 多 , I V 值 越 大 , 对 信 息 增 益 惩 罚 就 越 大 。 C 4.5 算 法 : 使 用 分 支 度 对 信 息 增 益 偏 好 分 支 度 高 的 特 征 进 行 惩 罚 增 加 了 对 连 续 变 量 的 处 理 , 对 连 续 列 从 小 到 大 排 序 , 若 连 续 变 量 有 N 个 值 , c 4.5 中 产 生 N − 1 个 备 选 切 分 点 , 每 一 个 切 分 点 都 代 表 一 种 二 叉 树 的 切 分 方 案 。 \begin{array}{l} 1.目的:修正信息增益对分支度高的特征的偏好\\ 2.信息增益率:gainratio=\frac{InformationGain}{InformationValue}(使用分支度对信息增益偏好分支度高的特征进行惩罚)\\ 3.分支度(IV:Information Value):\\ \quad Information Value = -\sum_{i=1}^kp(v_i)log_2p(v_i)\\ \quad i:表示父节点的第i个子节点;v_i:第i个子节点的样本数;p(v_i):第i个子节点的样本数占父节点样本数\\ \quad 相当于衡量整个分裂情况的信息熵,分支度越高,分裂越多,IV值越大,对信息增益惩罚就越大。 \\ \\ C4.5算法:\\ \quad 使用分支度对信息增益偏好分支度高的特征进行惩罚\\ \quad 增加了对连续变量的处理,对连续列从小到大排序,若连续变量有N个值,c4.5中产生N-1个备选切分点,每一个切分点都代表一种二叉树的切分方案。 \end{array} 1.2.:gainratio=InformationValueInformationGain使3.(IV:InformationValue):InformationValue=i=1kp(vi)log2p(vi)i:ivi:ip(vi):iIVC4

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值