- 博客(15)
- 资源 (12)
- 收藏
- 关注
原创 斯坦福大学机器学习——特征选择(Feature selection)
特征选择是一种及其重要的数据预处理方法。假设你需要处理一个监督学习问题,样本的特征数非常大,但是可能仅仅有少部分特征会和对结果产生影响。甚至是简单的线性分类,如果样本特征数超过了n,但假设函数的VC维确仍然是O(n),那么,除非大大扩展训练集的数量,否则即会带来过拟合的问题。在这样的情况下,可以使用特征选择算法降低特征的数量。
2015-01-22 14:06:02
23014
原创 斯坦福大学机器学习——交叉验证(Cross Validation)
交叉验证是一种模型选择方法,其将样本的一部分用于训练,另一部分用于验证。因此不仅考虑了训练误差,同时也考虑了泛化误差。从这里可以看出机器学习、数据挖掘与传统统计学的一个重要差别:传统统计学更注重理论,追求理论的完整性和模型的精确性,在对样本建立某个特定模型后,用理论去对模型进行各种验证;而机器学习/数据挖掘则注重经验,如交叉验证,就是通过不同模型在同一样本上的误差表现好坏,来选择适合这一样本的模型,而不去纠结理论上是否严谨。
2015-01-19 09:27:07
64881
原创 斯坦福大学机器学习——误差理论(Error Theory)
一、偏倚(bias)和方差(variance)在讨论线性回归时,我们用一次线性函数对训练样本进行拟合(如图1所示);然而,我们可以通过二次多项式函数对训练样本进行拟合(如图2所示),函数对样本的拟合程序看上去更“好”;当我们利用五次多项式函数对样本进行拟合(如图3所示),函数通过了所有样本,成为了一次“完美”的拟合。图3建立的模型,在训练集中通过x可以很好的预测y,然而
2015-01-09 22:07:04
34194
2
原创 斯坦福大学机器学习——主成份分析(Principal Components Analysis)
主成份分析就是求出原始数据矩阵的协方差矩阵对应的特征值和特征向量,对特征值进行由大而小的排序,再根据特征值对应的特征向量进行线性变换,得到新的向量(新的向量间相互正交)。通过设定阈值可以用低维的新向量近似表示高维的原向量(协方差矩阵为非奇异的);若协方差矩阵为奇异的,且零特征值较多,这种情况使用低维的新向量也可以完全表示高维原向量。
2014-12-26 14:28:45
6151
1
原创 斯坦福大学机器学习——因子分析(Factor analysis)
一、问题的提出在EM算法求解高斯混合模型一文中,我们的样本集 ,而样本的数量m远大于样本的维度n,因此,可以轻易的构造出高斯混合模型。现在,我们再看下不同的情况:假如,或,我们将很难构建一个普通高斯模型,更别提高斯混合模型。这m个的数据仅仅是 的子空间,如果我们用这m个数据建立高斯模型,并对利用极大似然,对期望和方差进行参数估计。可得:我们将发现协方差为奇异矩阵,即
2014-12-15 16:11:59
14318
1
原创 斯坦福大学机器学习——EM算法求解高斯混合模型
EM算法(Expection-Maximizationalgorithm,EM)是一种迭代算法,通过E步和M步两大迭代步骤,每次迭代都使极大似然函数增加。但是,由于初始值的不同,可能会使似然函数陷入局部最优。下面来谈谈EM算法以及其在求解高斯混合模型中的作用。
2014-11-17 16:57:14
35237
5
原创 斯坦福大学机器学习——支持向量机(3)
八、核(kernel)如果样本点为线性不可分,那么,需要将数据映射到高维空间,使在原始空间内其线性可分变为线性可分。如下图所示:上文提到,分类器可以写成:}+b" alt="">那么,如果使用一种映射的方法,将低维数据映射到高维(),使得线性不可分变为线性可分。称为特征映射函数,这样,分类器就变为:}+b" alt="">(1)实例低维映射到高维能否
2014-11-10 12:06:02
3648
原创 斯坦福大学机器学习——支持向量机(2)
五、拉格朗日对偶(Lagrange duality)(1)拉格朗日算子如果我们需要求解形如这样的优化问题:
2014-10-10 09:20:49
2529
原创 斯坦福大学机器学习——支持向量机(1)
首次听说SVM是在实验室的科研进展报告上听杨宝华老师提到过,当时听得云里雾里,觉得非常的高大上。随后在辜丽川老师的人工智能作业上我也选择介绍SVM。但都是浅显的认识,没有继续深入。最近看了Andrew Ng的讲义和v_JULY_v大神的博文《支持向量机通俗导论(理解SVM的三层境界)》才算对基本概念有所了解。下面对SVM的基本概念进行总结。简介SVM是Support Vector Ma
2014-09-25 09:18:38
3067
原创 斯坦福大学机器学习——K-means算法
k-means通过设置重心和移动中心两个简答的步骤,就实现了数据的聚类。下面就来介绍下k-means算法。一、 数值属性距离度量度量数值属性相似度最简单的方法就是计算不同数值间的“距离”,如果两个数值之间“距离”比较大,就可以认为他们的差异比较大,而相似度较低;换而言之,如果两数值之间“
2014-09-16 09:11:06
4106
原创 斯坦福大学机器学习——线性回归(Linear Regression)
一、概念线性回归是利用称为线性回归函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。线性回归函数则是一个或多个称为回归系数的模型参数的线性组合。二、用途当结论或者类是数值,并且所有训练样本都为数值时,可以使用线性回归的方法。线性回归主要用途是预测,线性回归可以利用训练集拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的x值,在没有给定与它相配对的y的情况下,可以
2014-09-10 22:28:21
4806
原创 斯坦福大学机器学习——高斯判别分析
同朴素贝叶斯一样,高斯判别分析(Gaussian discriminant analysismodel, GDA)也是一种生成学习算法,在该模型中,我们假设y给定的情况下,x服从混合正态分布。通过训练确定参数,新样本通过已建立的模型计算出隶属不同类的概率,选取概率最大为样本所属的类。
2014-09-04 16:01:56
21846
原创 斯坦福大学机器学习——朴素贝叶斯
首次听说朴素贝叶斯是在吴军的google黑板报数学之美专题,统计语言模型一章中谈及。其后,吴信东在我们学院的《数据挖掘十大算法》中再次介绍。最近,在学习Andrew Ng的机器课程也介绍了朴素贝叶斯。既然这么重要,有必要将课程内容进行整理。一、 概念1) 贝叶斯模型贝叶斯模型是将两个事件之间的先验概率和后验概率建立起一座桥梁,即
2014-09-03 12:26:30
3655
原创 斯坦福大学机器学习——广义线性模型
同事提到了SPSS处理广义线性模型问题,今天就抽空对广义线性模型相关概念进行一番梳理。1.指数分布族指数分布族(Exponential Family)是这样一组分布:这些分布的概率密度函数可以表示成以下形式:其中,y是随机变量;h(x)称为基础度量值(base measure);称为自然参数(natural parameter),也称为规范参数(canonical pa
2014-08-22 11:35:08
7509
WINDOWS核心编程(中文版)
2010-02-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人