机器学习总结
aiqi6666
一条爱学习的咸鱼
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习之决策树总结
一.熵的相关知识 1.熵,也称信息熵 是表示随机变量不确定性的度量,不确定性越大,熵越大,定义如下: 来理解一下,如果X的取值为固定某个值,这时不确定性最小,H(X)=-1*log1=0; 如果X服从均匀分布,这时不确定性最大,H(X)=log n, 所以H(X)的范围为 0<=H(X)<=log n 2.条件熵的定义: 3.信息增益: 表示得知特征X的信...原创 2018-06-19 21:10:58 · 284 阅读 · 0 评论 -
机器学习之KNN总结
一.KNN模型介绍 k临近算法:给定一个训练数据集,对于新输入的实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。 在这个模型中,当训练数据集,距离度量,k值以及分类决策规则(如多数表决)确定后,对于任何一个新输入的实例,它所属的类唯一确定。 二.kd树的构造 该算法的主要问题是如何快速找到k个最邻近点,可以采用树形结构,即kd树:...原创 2018-06-23 20:44:27 · 286 阅读 · 0 评论 -
个人对GBDT的理解
废话不多说,首先DT即决策树,GBDT使用的树是回归树,生成方法见CART回归树。 GBDT是提升(boosting)方法的一种,但他不是Adaboost,我们常使用Adaboost进行分类,建议不要将GBDT和Adaboost联系起来看。 看下提升树模型的原理,它是个加法模型: 其推导过程如下,使用前向分布算法: r就是残差,重点来了,GBDT的核心就在于,每一棵树学的是之前所有...原创 2018-06-26 14:21:31 · 251 阅读 · 0 评论 -
Adaboost算法理解
一.集成学习 集成学习的一类方法是boosting,工作机制是首先从训练集用初始权重训练出一个弱学习器1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2.,如此重复进行,直到弱学习器数达到事先指定的数目T,最终将这T个弱学习器通过集合策略进行整...原创 2018-08-10 11:19:50 · 388 阅读 · 0 评论 -
牛顿法和拟牛顿法
牛顿法的两个主要应用方向: 1.求方程的近似解 原理是利用泰勒公式,在x0处展开,且展开到一阶,即f(x) = f(x0)+(x-x0)f’(x0) 求解方程f(x)=0,即f(x0)+(x-x0)f’(x0)=0,求解x = x1=x0-f(x0)/f’(x0),因为这是利用泰勒公式的一阶展开,f(x) = f(x0)+(x-x0)f’(x0)处并不是完全相等,而是近似相等,这里求得的x1...原创 2018-08-01 18:22:45 · 471 阅读 · 0 评论 -
机器学习之随机森林
1.定义 随机森林是集成学习中bagging方法的一种,bagging的思想是每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging 思想。 2.生成 每颗树生成的规则如下: 1)如果训练集大小为N,对于每棵树而言,随机且有放回地从训练集...转载 2018-08-12 09:41:07 · 327 阅读 · 0 评论 -
数据挖掘之EM算法总结
EM算法用来求解具有隐变量的模型参数估计问题,‘隐变量’问题网上最常见的例子就是掷两枚硬币和抽样男女学生身高问题,可以自己看看。 EM算法的过程及其推导如下3: EM的应用:高斯混合模型(GMM) 弄清楚隐变量: 写出完全数据的对数似然函数,然后求对数似然函数的期望得到Q函数,求使Q函数极大对应的参数 EM的应用:Kmeans聚类: 首先回顾下kmeans的过程。。...原创 2018-08-15 10:58:33 · 691 阅读 · 0 评论
分享