机器学习算法_第1篇

原创于 2016-05-28 14:28:08 发布 · 936 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#决策树 #Adaboost算法 #SVM算法 #EM算法 #机器学习

知识综合专栏收录该内容

44 篇文章

订阅专栏

决策树

介绍

决策树基本思想：以信息熵为度量构造一颗熵值下降最快的树，到叶子节点处的熵值为0，此时每个叶子节点的实例都属于同一类。它是一种自顶向下的递归方法。
优点
- 易于理解和实现；
- 数据的准备往往简单或者不必要；
- 能够同时处理数据型和常规型属性；
- 是一个白盒模型；易于通过静态测试来对模型进行评测；
- 在相对较短的时间内能够对大型数据源做出可行且效果良好的结果
方法
- ID3 ：信息增益最大准则
- C4.5：信息增益比最大准则
- CART：
  - 回归树：平方误差最小准则
  - 分类树：基尼系数最小准则

Adaboost算法

简介

Adaboost算法基本四线：将弱学习算法提升为强学习方法。对于分类器问题：从弱学习算法出发，反复学习，得到一系列弱分类器（又称基本分类器）；然后组合这些弱分类器，构成一个强分类器。
实现

Adaboost算法目的：使错误分类样本的权值加大，在后一轮的弱分类器中，得到更多关注。
- 提高前一轮弱分类器错误分类样本的权值
- 降低被正确分类器样本的权值
Adaboost采用加权多数表决的方法将弱分类器组合在一起。
- 加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用。
- 减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。
Adaboost算法的训练误差是以指数速率下降的。
本质

Adaboost是前向分布加法算法的特例：
- 加法模型：有基本分类器组成
- 损失函数：指数函数
GDBT

步骤：
- 求出损失函数的负梯度，当做残差的近似值
- 然后让一棵树去拟合每个样本的残差
  - 回归树和决策树很类似，只是回归树把落入叶子节点的样本，对于他们的标签求了个平均值输出。注意：这里的标签，对于GBDT来说，是每一个样本的残差
- 然后再去求这棵树的占的比重
  - 线性搜索求系数，即每棵树的系数
  - 最后的模型用这些树融合

支持向量机SVM

简介

支持向量机基本思想：间隔最大化。其学习算法是求解凸二次规划的最优化算法。
分类
- 线性可分支持向量机：硬间隔最大化（硬间隔支持向量机）
- 线性支持向量机：软间隔最大化（软间隔支持向量机）
- 非线性支持向量机：核函数（核方法）
算法
- 间隔最大化
  - 1）求几何间隔最大的分离超平面；
  - 2）换成函数间隔（不影响最优化问题的解）
  - 3）最终转变成求解凸二次规划问题。
- 对偶算法
  - 1）求对应的Lagrange函数
  - 2）得到原问题
  - 3）转换原问题的对偶问题，求导，后求极大值
- 最大分离超平面
  - 1）求对偶问题的最优解，即原问题的最优解
  - 2）得到最大分离超平面
  - 3）得到分类决策函数

EM算法

简介

EM算法只有输入，内有对应的输出，属于非监督学习。它的目标函数是最大化对数似然函数。
整体矿建**
- E-step计算
- M-step计算
经常与高斯混合函数一起使用，用于参数求解。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。