机器学习算法
文章平均质量分 73
奋斗啊哈
每篇博文都有待完善,不足之处请各位多多指教!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
EM算法
EM算法本文描述的EM算法(Expectation Maximization Algorithm),是存在隐含变量时常用的一种学习方法。EM算法可用于变量的值从来没被直接观察到,但这些变量所遵循的分布的一般形式已知的情形。EM算法被用于训练贝叶斯网络、径向基函数网络,也是许多非监督聚类算法、学习部分可观察马尔科夫模型的广泛使用的Baum-Welch前向后向算法的基础。 同类的其他优化算法有:...原创 2016-01-29 21:36:11 · 1944 阅读 · 0 评论 -
Boosting
提升算法(Boosting)是迭代算法,它每次使用一个弱学习器弥补前一个弱学习器的“不足”,通过这样的串行增加N个弱学习器来构造一个使损失函数最小的强学习器,通过这样的迭代过程来逐步收敛到相对完善的强学习器。从优化的角度分析,与一般的在参数空间搜索最优解的学习算法(如神经网络)不同,Boosting是在学习器空间,或说函数空间(Function space),不断完善学习器,使误差函数最小。与Bag原创 2016-06-27 18:04:34 · 11150 阅读 · 0 评论 -
参数估计方法
极大似然估计(Maximum likelihood estimation,ML)最大后验概率(Maximum A Posteriori Probability Estimation,MAP)估计贝叶斯估计(Bayesian Estimation)原创 2016-07-21 16:24:15 · 2953 阅读 · 0 评论 -
机器学习基本问题
模型选择 过拟合 交叉验证交叉验证(Cross-validation,CV) 目的:检测和预防过拟合 LOOCV (Leave-one-out Cross Validation) 交叉验证方法 优点 缺点 Test-set 计算开销小 无法评估模型泛化能力 K-fold交叉验证原创 2016-02-22 23:01:19 · 1004 阅读 · 0 评论 -
决策树
信息论基础熵 设随机变量取有限个值,其概率分布为P(X=xi)=pi,i=1,2,...,nP(X=x_i)=p_i , i=1,2,...,n则随机变量XX的熵的定义为H(X)=−∑i=1npilogpiH(X)=-\sum_{i=1}^np_i\log p_i对数以22或ee为底时,熵的单位分别为比特(bit)或纳特(nat).由定义可知熵与X的取值无关,而与X的分布有关,所以熵记作H(p)H原创 2016-03-26 11:03:25 · 6895 阅读 · 0 评论 -
Bagging
Bootstrap Sample有放回的随机采样,如下图所示:之所以采用这样的方式是因为在应用中,获取N个服从同一分布的原始数据集是不现实的,而使用这种有放回的Bootstrap 采样方式不会影响到模型的准确性(以方差来衡量),可参考文献3中Bootstrap Sample部分。 有放回的随机采样,其实对模型的性能来说不是至关重要的,可以用无放回的随机采样来取代。Bagging (Bootstr原创 2016-06-21 11:25:41 · 13402 阅读 · 0 评论 -
Logistic 回归
应用场景:根据学生的两门课程的分数和是否被录取的历史数据,对新的学生两门课程的分数推断其是否被录取。R实现的logistic 分类程序如下。 (注:Logistic的理论部分可参见本博客的HMM->MEMM->CRF中的相关介绍。)#Load datadata <- read.csv("data.csv")#Create plotplot(data$score.1,data$score.2,原创 2016-05-13 23:12:38 · 875 阅读 · 0 评论 -
SVM(1)-概念与理解
发展理解低纬度空间转到高维空间原创 2016-07-15 22:06:51 · 523 阅读 · 0 评论 -
SVM(2)-算法
SVM原理当训练数据线性可分时,通过硬间隔最大化,学习线性的分类器,即线性可分支持向量机,又称为硬间隔支持向量机; 当训练数据近似线性可分时,通过软间隔最大化,学习线性分类器,即线性支持向量机,又称为软间隔支持向量机; 当训练数据线性不可分时,通过核技巧及软间隔最大化,学习非线性支持向量机。 函数间隔 定义训练数据集TT,超平面(w,b)(w,b),(w⋅xi+b)(w\cdot x_i+b原创 2016-03-25 23:03:25 · 652 阅读 · 0 评论 -
CART实现
基于R的CART的实现包有tree,rpart.treerpart原创 2016-06-18 00:47:44 · 607 阅读 · 0 评论 -
Ridge regression
参考文献1.Hoerl A E, Kennard R W. Ridge regression: Biased estimation for nonorthogonal problems[J]. Technometrics, 1970, 12(1): 55-67.原创 2016-07-11 22:59:49 · 1058 阅读 · 0 评论 -
机器学习部分算法
分类算法感知机利用误差最小的原则求得分离超平面,但是这样的平面有无数多个;SVM利用最大间隔求分离超平面,这样的解释唯一的。原创 2016-04-25 08:23:59 · 564 阅读 · 0 评论 -
机器学习算法小结
多分类转化为二分类原创 2016-04-21 22:46:21 · 325 阅读 · 0 评论 -
R笔记
基本命令getwd()#查看当前工作目录setwd("D:\\path\\to\\Rwork")#设置工作目录原创 2016-04-16 11:32:18 · 436 阅读 · 0 评论 -
拉格朗日乘子法(编辑中)
拉格朗日函数参考文献《统计学习方法》原创 2016-03-28 23:39:56 · 460 阅读 · 0 评论 -
HMM->MEMM->CRF
1 相关概念随机过程 马尔科夫随机过程 随机场 马尔科夫随机场联合概率分布P(Y)P(Y)P(Y)可用无向图G(V,E)G(V,E)G(V,E)表示,在图GGG中,节点表示随机变量,边表示变量之间的依赖。如果该联合分布满足成对、局部、全局马尔科夫性,那么该联合分布称为概率无向图模型,或马尔科夫随机场(Markov radom field). 图中节点之间的连接无方向限制,即没有强因果联系...原创 2016-02-06 22:07:37 · 4743 阅读 · 0 评论 -
分类
广义线性模型一般线性回归logistic回归对p(Y|X)p(Y|X)和XX之间的关系建模。朴素贝叶斯分类朴素贝叶斯分类的主要思想是:对于待分类数据X=(x1,x2,...,xm)X=(x_1,x_2,...,x_m),计算使后验概率p(Y=cj|X)p(Y=c_j|X)最大的YY的取值,即为数据XX所属的类别标签cjc_j. 后验概率p(Y=cj|X)p(Y=c_j|X)是通过贝叶斯公式计算的,原创 2016-07-28 10:14:00 · 508 阅读 · 0 评论
分享