
Machine Learning
文章平均质量分 88
蓬莱道人
半路出家的研究僧
展开
-
机器学习之四:朴素贝叶斯
1、条件概率: P(A|B)=P(AB)P(B)P(A|B)=P(AB)P(B)P(A|B)=\frac {P(AB)}{P(B)}\quad 可以得出: P(AB)=P(A)P(B|A)=P(B)P(A|B)P(AB)=P(A)P(B|A)=P(B)P(A|B)P(AB)=P(A)P(B|A)=P(B)P(A|B) 2、全概率公式: &...原创 2018-03-20 17:28:12 · 388 阅读 · 0 评论 -
机器学习之九:提升树和GBDT
1、前向分步算法: 考虑加法模型: f(x)=∑m=1Mβmb(x;γm)f(x)=∑m=1Mβmb(x;γm)f(x)=\sum_{m=1}^M\beta_mb(x;\gamma_m) 其中b(x;γm)b(x;γm)b(x;\gamma_m)为基函数,γmγm\gamma_m是基函数的参数,βmβm\beta_m是基函数的系数。 &nbs...原创 2018-03-27 11:48:13 · 489 阅读 · 0 评论 -
机器学习之十四:相对熵(KL散度)和交叉熵
1、熵的定义 在讲解决策树的博文中曾经提到过熵的定义,熵是表示随机变量不确定性的度量,熵越大,则随机变量的不确定性越大。设X是一个离散随机变量,X的概率分布为: P(X=xi)=pi,i=1,2,3...,nP(X=x_i)=p_i,i=1,2,3...,n 则随机变量X的熵定义为: H(X)=−∑i=1npilogpiH(X)=-\sum _{i=1}^n p_ilog\,p原创 2018-04-11 16:00:04 · 1855 阅读 · 0 评论 -
机器学习之五:决策树(ID3、C4.5)
1、信息熵和条件熵 在信息论中,熵是表示随机变量不确定性的度量,熵越大,则随机变量的不确定性越大。设X是一个离散随机变量,X的概率分布为:P(X=xi)=pi,i=1,2,3...,nP(X=xi)=pi,i=1,2,3...,nP(X=x_i)=p_i,i=1,2,3...,n 则随机变量X的熵定义为:H(X)=−∑i=1npilogpiH(X...原创 2018-03-22 11:40:36 · 378 阅读 · 0 评论 -
机器学习之十三:SVM(支持向量机)
一般地,对于二分类问题,当训练数据集线性可分时,存在无穷多个分离超平面可将两类数据正确分开。感知机利用误分类最小的策略,求得分离超平面,不过这时的解有无穷多个,线性可分支持向量机利用间隔最大化求最优分离超平面,这时,解释唯一的。 1、函数间隔和几何间隔 (1)几何间隔: 中学时学过,平面中对于直线...原创 2018-03-31 20:47:40 · 1090 阅读 · 0 评论 -
机器学习之十五:EM(期望极大)算法
1、EM算法简介 EM是一种迭代算法,1977年提出,是用来求解概率模型参数的一种算法。概率模型有时既含有观测变量,又含有隐变量或潜在变量。如果概率模型的变量都是观测变量,那么给定数据,可以直接用最大似然估计法或者贝叶斯估计法去估计模型的参数。但是,当模型含有隐变量时,就不能简单的使用这些估计方法。EM算法就是含有隐变量的概率模型参数估计的最大...原创 2018-05-06 11:20:01 · 977 阅读 · 0 评论 -
机器学习之十六:HMM(隐马尔可夫模型)
1、什么是HMM: 先来看一个例子:假设有4个盒子,每个盒子里面都装有红白两种颜色的球,盒子里面的红白球有下表给出: 盒子1234 红球数 5368 白球数 5742 按照下面的方法抽球,产生一个球的颜色的随机序列:开始,从4个盒子里以等概率随机选取...原创 2018-05-06 18:05:33 · 750 阅读 · 0 评论 -
机器学习之十七:PCA(主成成分分析)
什么是PCA: 1、PCA介绍 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目...原创 2018-05-25 11:24:52 · 2423 阅读 · 1 评论 -
机器学习之一:线性回归
1、线性回归的原理 线性回归类似拟合出一条广义直线最佳匹配训练集中的所有数据,一般用最小二乘法求解。它指的是拟合出的广义直线代表的真实值和观测到的数据的误差的平方和最小的一条直线。最小二乘法将最优问题转化为函数求极值问题。 数学形式: y=θ0+θ1x1+θ2x2+...+θnxn,y⊂Ry= \theta_0+\theta_1x_1+\theta_2x_2+...+\theta_n原创 2018-03-17 10:01:00 · 663 阅读 · 0 评论 -
机器学习之三:Knn
1、原理 给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。 2、步骤 (1).计算新实例和训练样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离,曼哈顿距离等); (2)对上面所有的距离值进行排序; (3)选前k个最小距离的样本; ...原创 2018-03-17 17:59:06 · 379 阅读 · 0 评论 -
机器学习之十二:softmax回归
1、Softmax模型 Softmax回归和逻辑回归的回归模型很类似,为如下条件概率: P(Y=k|xi;wk)=exp(wk⋅xi)∑Kk=1exp(wk⋅xi)P(Y=k|xi;wk)=exp(wk⋅xi)∑k=1Kexp(wk⋅xi)P(Y=k|x_i;w_k)=\frac{\exp(w_k\cdot x_i)}{\sum_{k=1}...原创 2018-03-31 17:56:16 · 1077 阅读 · 0 评论 -
机器学习之二:感知机
1、感知机的原理 感知机的模型为: f(x)=sign(w⋅x+b)f(x)=sign(w⋅x+b) f(x)=sign(w\cdot x+b) 其中:w和b称为感知机模型的参数,w⊂Rnw⊂Rnw\subset R^n叫做权值,b⊂Rb⊂Rb\subset R叫做偏置,sign为符号函数: sign(x)={+1,−1,x≥0x<0sign(x)={+1,x≥0−1,x<0 ...原创 2018-03-17 16:56:41 · 492 阅读 · 0 评论 -
机器学习之十:Xgboost
1、算法简介 Xgboost 的全称是eXtreme Gradient Boosting,它是Gradient Boosting Machine的一个c++实现,作者为正在华盛顿大学研究机器学习的大牛陈天奇 。xgboost最大的特点在于,它能够自动利用CPU的多线程进行并行,同时在算法上加以改进提高了精度。首先回顾一下上一篇中的提升树模型目标函数...原创 2018-03-27 13:16:23 · 662 阅读 · 0 评论 -
机器学习之七:随机森林
1、Bootstraping(自助法) &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;名字来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下: (1) 采用重抽样技术从原始样本中抽取一定数量...原创 2018-03-24 21:40:03 · 2602 阅读 · 0 评论 -
机器学习之六:决策树(CART)
CART又叫分类与回归树,既可以用来分类,也可以用来回归。CART假设决策树是二叉树,内部节点特征取值是“是”和“否”,左分支取值是“是”的分支,右分支取值是“否的分支,这样的决策树等价于递归的二分每个特征,将特征空间划分为有线个单元,并在这些单元上确定预测的概率分布。对回归树用平方误差最小化的准则,对分类树用基尼指数最小化的...原创 2018-03-24 10:08:32 · 1124 阅读 · 1 评论 -
机器学习之八:Adaboost
1、Adaboost算法: 输入训练数据集T={(x1,y1),(x2,y2),...,(xn,yn)}T={(x1,y1),(x2,y2),...,(xn,yn)}T=\{ (x_1,y_1),(x_2,y_2),...,(x_n,y_n)\},其中xi⊂Rn,yi∈{−1,1}xi⊂Rn,yi∈{−1,1}x_i\subset R^n,y_i\in\{-1,1\};弱...原创 2018-03-25 16:41:46 · 308 阅读 · 0 评论 -
机器学习之十一:逻辑回归
1、逻辑斯谛分布 设XXX是连续随机变量,XXX服从逻辑斯蒂分布是指XXX具有下列分布函数和概率密度: F(x)=P(X≤x)=11+e−(x−μ)/γf(x)=F′(x)=1+e−(x−μ)/γγ(1+e−(x−μ)/γ)2F(x)=P(X≤x)=11+e−(x−μ)/γf(x)=F′(x)=1+e−(x−μ)/γγ(1+e−(x−μ)/γ)2...原创 2018-03-31 12:02:23 · 431 阅读 · 1 评论 -
机器学习之十八:聚类算法
聚类是无监督学习中最常用的算法,常用的聚类算法总结。1、K-means聚类:对于输入样本D={ X1,X2,X3,……,Xn },K-means聚类算法如下:(1)从D中随机选择K个class center,U1,U2,……,Uk;(2)对于每个样本Xi,将其标记为距离类别中心最近的类别,即: Yi=argmin ||Xi−Uj||,1≤j≤K,即数据点距离哪个中心点最近就划分到哪一类中;(3)将...原创 2018-05-25 20:44:29 · 4366 阅读 · 0 评论