
机器学习详解
对应机器学习经典的算法进行分析原理,包括:SVM、线性回归、KNN、贝叶斯方法、adaboost、GMM、CRF等,以及各种优化算法如梯度下降、SMO、EM等。
勿在浮砂筑高台
视频内容理解/多模态表征学习、搜索推荐算法
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【机器学习详解】解无约束优化问题:梯度下降、牛顿法、拟牛顿法
无约束优化问题是机器学习中最普遍、最简单的优化问题。 x∗=minx f(x),x∈Rnx^*=min_{x}\ f(x),x\in R^n1.梯度下降梯度下降是最简单的迭代优化算法,每一次迭代需求解一次梯度方向。函数的负梯度方向代表使函数值减小最快的方向。它的思想是沿着函数负梯度方向移动逐步逼近函数极小值点。选择适当的初始值x(0)x^{(0)},不断迭代,沿负梯度方法更新xx值,直到收敛。具体原创 2016-07-06 20:58:22 · 10767 阅读 · 2 评论 -
【机器学习详解】决策树与随机森林算法
决策树决策树模型是一种树形结构,基于特征对实例进行分类或回归的过程。即根据某个特征把数据分划分到若干个子区域(子树),再对子区域递归划分,直到满足某个条件则停止划分并作为叶子节点,不满足条件则继续递归划分。 一个简单的决策树分类模型:红色框出的是特征。 决策树模型学习过程通常包3个步骤:特征选择、决策树的生成、决策树的修剪。1.特征选择选择特征顺序的不同将会产生不同决策树,选择好的特征能使得各个原创 2016-07-03 21:16:12 · 9083 阅读 · 0 评论 -
【机器学习详解】AdaBoost算法原理
概念AdaBoost是一种级联算法模型,即把几个弱分类器级联到一起去处理同一个分类问题。也就是“三个臭皮匠顶一个诸葛亮”的道理。例如一个专家作出的判定往往没有几个专家一起作出的判定更准确。一种情况:如果每个专家都仅有一票的权利,采用投票机制的方法属于原创 2016-06-20 20:09:45 · 6920 阅读 · 0 评论 -
【机器学习详解】SMO算法剖析
本文力求简化SMO的算法思想,毕竟自己理解有限,无奈还是要拿一堆公式推来推去,但是静下心看完本篇并随手推导,你会迎刃而解的。推荐参看SMO原文中的伪代码。**1.SMO概念**===========上一篇博客已经详细介绍了[SVM原理](http://blog.youkuaiyun.com/luoshixian099/article/details/51073885),为了方便求解,把原始最优化问题转化成了其对偶问题,因原创 2016-04-27 23:00:27 · 79102 阅读 · 46 评论 -
【机器学习详解】矩阵奇异值分解(SVD)及其应用
PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面,也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意义的一种方法,它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,这些小矩阵描述的是矩阵的重要的特性。就像是描述一个人一样,给别人描述说这个人长得浓眉大眼,方脸,络腮胡,而且带个黑框的眼镜,这样寥寥的几个特征转载 2016-04-10 09:29:44 · 4234 阅读 · 0 评论 -
【机器学习详解】概率生成模型与朴素贝叶斯分类器
1.概率生成模型首先介绍生成模型的概念,然后逐步介绍采用生成模型的步骤。1.1概念 即对每一种类别CkC_k分别建立一种模型p(Ck|x)p(C_k|x),把待分类数据x分别带入每种模型中,计算后验概率p(Ck|x)p(C_k|x),选择最大的后验概率对应的类别。假设原始数据样本有K类,生成学习算法是通过对原始数据类p(x|Ck)p(x|C_k)与p(Ck)p(C_k)建立数据类模型后,采用贝原创 2016-03-31 23:39:08 · 12503 阅读 · 1 评论 -
【机器学习详解】SVM解回归问题
在样本数据集(xn,tn)中,tn不是简单的离散值,而是连续值。如在线性回归中,预测房价的问题。与线性回归类似,目标函数是正则平方误差函数: 在SVM回归算法中,目的是训练出超平面y=wTx+b,采用yn=wTxn+b作为预测值。为了获得稀疏解,即计算超平面参数w,b不依靠所用样本数据,而是部分数据(如在SVM分类算法中,支持向量的定义),采用ϵ−insensitive 误差函数–Vapnik,1原创 2016-04-12 10:47:09 · 38630 阅读 · 2 评论 -
【机器学习详解】线性回归、梯度下降、最小二乘的几何和概率解释
线性回归即线性拟合,给定N个样本数据(x1,y1),(x2,y2)....(xN,yN)(x_1,y_1),(x_2,y_2)....(x_N,y_N)其中xix_i为输入向量,yiy_i表示目标值,即想要预测的值。采用曲线拟合方式,找到最佳的函数曲线来逼近原始数据。通过使得代价函数最小来决定函数参数值。 采用斯坦福大学公开课的例子:假如一套房子的价格只考虑由房屋面积(Living area)与原创 2016-03-13 22:29:04 · 10069 阅读 · 0 评论 -
【机器学习详解】KNN分类的概念、误差率及其问题
KNN(K-Nearest Neighbors algorithm)是一种非参数模型算法。在训练数据量为N的样本点中,寻找最近邻测试数据x的K个样本,然后统计这K个样本的分别输入各个类别w_i下的数目k_i,选择最大的k_i所属的类别w_i作为测试数据x的返回值。当K=1时,称为最近邻算法,即在样本数据D中,寻找最近邻x的样本,把x归为此样本类别下。常用距离度量为欧式距离。在二维平面上要预测中间'*'所属颜色,采用K=11时的情况,其中有4黑色,7个蓝色,即预测'*'为蓝色。右图所示:当K=1时,即最近邻原创 2016-03-18 17:23:46 · 20451 阅读 · 3 评论 -
【机器学习详解】SVM解二分类,多分类,及后验概率输出
转载请注明出处:http://blog.youkuaiyun.com/luoshixian099/article/details/51073885 优快云−勿在浮沙筑高台\color{Blue}{优快云-勿在浮沙筑高台} 支持向量机(Support Vector Machine)曾经在分类、回归问题中非常流行。支持向量机也称为最大间隔分类器,通过分离超平面把原始样本集划分成两部分。首先考虑最简单原创 2016-04-10 22:10:18 · 68125 阅读 · 11 评论