机器学习算法_第1篇

决策树

  • 介绍

    决策树基本思想:以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处的熵值为0,此时每个叶子节点的实例都属于同一类。它是一种自顶向下的递归方法。

  • 优点

    • 易于理解和实现;
    • 数据的准备往往简单或者不必要;
    • 能够同时处理数据型和常规型属性;
    • 是一个白盒模型;易于通过静态测试来对模型进行评测;
    • 在相对较短的时间内能够对大型数据源做出可行且效果良好的结果
  • 方法

    • ID3 :信息增益最大准则
    • C4.5:信息增益比最大准则
    • CART:
      • 回归树:平方误差最小准则
      • 分类树:基尼系数最小准则

Adaboost算法

  • 简介

    Adaboost算法基本四线:将弱学习算法提升为强学习方法。对于分类器问题:从弱学习算法出发,反复学习,得到一系列弱分类器(又称基本分类器);然后组合这些弱分类器,构成一个强分类器。

  • 实现

    Adaboost算法目的:使错误分类样本的权值加大,在后一轮的弱分类器中,得到更多关注。

    • 提高前一轮弱分类器错误分类样本的权值
    • 降低正确分类器样本的权值

    Adaboost采用加权多数表决的方法将弱分类器组合在一起。

    • 加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用。
    • 减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用。

    Adaboost算法的训练误差是以指数速率下降的。

  • 本质

    Adaboost是前向分布加法算法的特例:

    • 加法模型:有基本分类器组成
    • 损失函数:指数函数
  • GDBT

    步骤:

    • 求出损失函数的负梯度,当做残差的近似值
    • 然后让一棵树去拟合每个样本的残差
      • 回归树和决策树很类似,只是回归树把落入叶子节点的样本,对于他们的标签求了个平均值输出。注意:这里的标签,对于GBDT来说,是每一个样本的残差
    • 然后再去求这棵树的占的比重
      • 线性搜索求系数,即每棵树的系数
      • 最后的模型用这些树融合

支持向量机SVM

  • 简介

    支持向量机基本思想:间隔最大化。其学习算法是求解凸二次规划的最优化算法。

  • 分类

    • 线性可分支持向量机:硬间隔最大化(硬间隔支持向量机)
    • 线性支持向量机:软间隔最大化(软间隔支持向量机)
    • 非线性支持向量机:核函数(核方法)
  • 算法

    • 间隔最大化
      • 1)求几何间隔最大的分离超平面;
      • 2)换成函数间隔(不影响最优化问题的解)
      • 3)最终转变成求解凸二次规划问题。
    • 对偶算法
      • 1)求对应的Lagrange函数
      • 2)得到原问题
      • 3)转换原问题的对偶问题,求导,后求极大值
    • 最大分离超平面
      • 1)求对偶问题的最优解,即原问题的最优解
      • 2)得到最大分离超平面
      • 3)得到分类决策函数

EM算法

  • 简介

    EM算法只有输入,内有对应的输出,属于非监督学习。它的目标函数是最大化对数似然函数。

  • 整体矿建**

    • E-step计算
    • M-step计算

    经常与高斯混合函数一起使用,用于参数求解。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值