决策树
介绍
决策树基本思想:以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处的熵值为0,此时每个叶子节点的实例都属于同一类。它是一种自顶向下的递归方法。
优点
- 易于理解和实现;
- 数据的准备往往简单或者不必要;
- 能够同时处理数据型和常规型属性;
- 是一个白盒模型;易于通过静态测试来对模型进行评测;
- 在相对较短的时间内能够对大型数据源做出可行且效果良好的结果
方法
- ID3 :信息增益最大准则
- C4.5:信息增益比最大准则
- CART:
- 回归树:平方误差最小准则
- 分类树:基尼系数最小准则
Adaboost算法
简介
Adaboost算法基本四线:将弱学习算法提升为强学习方法。对于分类器问题:从弱学习算法出发,反复学习,得到一系列弱分类器(又称基本分类器);然后组合这些弱分类器,构成一个强分类器。
实现
Adaboost算法目的:使错误分类样本的权值加大,在后一轮的弱分类器中,得到更多关注。
- 提高前一轮弱分类器错误分类样本的权值
- 降低被正确分类器样本的权值
Adaboost采用加权多数表决的方法将弱分类器组合在一起。
- 加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用。
- 减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用。
Adaboost算法的训练误差是以指数速率下降的。
本质
Adaboost是前向分布加法算法的特例:
- 加法模型:有基本分类器组成
- 损失函数:指数函数
GDBT
步骤:
- 求出损失函数的负梯度,当做残差的近似值
- 然后让一棵树去拟合每个样本的残差
- 回归树和决策树很类似,只是回归树把落入叶子节点的样本,对于他们的标签求了个平均值输出。注意:这里的标签,对于GBDT来说,是每一个样本的残差
- 然后再去求这棵树的占的比重
- 线性搜索求系数,即每棵树的系数
- 最后的模型用这些树融合
支持向量机SVM
简介
支持向量机基本思想:间隔最大化。其学习算法是求解凸二次规划的最优化算法。
分类
- 线性可分支持向量机:硬间隔最大化(硬间隔支持向量机)
- 线性支持向量机:软间隔最大化(软间隔支持向量机)
- 非线性支持向量机:核函数(核方法)
算法
- 间隔最大化
- 1)求几何间隔最大的分离超平面;
- 2)换成函数间隔(不影响最优化问题的解)
- 3)最终转变成求解凸二次规划问题。
- 对偶算法
- 1)求对应的Lagrange函数
- 2)得到原问题
- 3)转换原问题的对偶问题,求导,后求极大值
- 最大分离超平面
- 1)求对偶问题的最优解,即原问题的最优解
- 2)得到最大分离超平面
- 3)得到分类决策函数
- 间隔最大化
EM算法
简介
EM算法只有输入,内有对应的输出,属于非监督学习。它的目标函数是最大化对数似然函数。
整体矿建**
- E-step计算
- M-step计算
经常与高斯混合函数一起使用,用于参数求解。

被折叠的 条评论
为什么被折叠?



