
机器学习
玉米米的后花园
水滴石穿
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
关于SVM线性超平面的理解
优化问题:最小化代价函数 w21、拉格朗日算子2、对偶问题3、KKT条件(非等式约束)4、凸函数5、假设一切极值点在边界取得6、支持向量(高维)7、核函数...原创 2019-05-08 19:37:40 · 885 阅读 · 0 评论 -
关于线性模型的学习和总结
1、线性回归2、最小二乘求解及原理解释(梯度下降、随机梯度下降;矩阵求解、误差的高斯分布)3、局部加权回归、过拟合、欠拟合4、线性分类(二分类):对数(logistic)回归。sigmod函数,概率密度分布函数,伯努利方程。最大似然法。求解使用似然函数的梯度下降和原函数的牛顿法,按照切线下降。来回io,直到差值很小则回归。5、广义线性模型:概率密度分布函数满足指数族分布的;对于多类分类6...原创 2019-05-08 19:56:10 · 629 阅读 · 0 评论 -
logistic分类
1、原理:使用sigmod函数将回归映射到分类。二分类2、代价函数:使用概率分布、伯努利方程设计最大 似然性为代价函数目标函数:最小化 -似然最大3、参数求解:梯度下降(上升?)数学推导:sig’=h*(1-h)4、模型训练代码:(1)批梯度下降和随机梯度下降(2)关于代价函数和收敛训练好模型后就可以将权重设置为定制,输入数据特征,通过判断sig输出与0.5的阈值就可以判断类别了。...原创 2019-05-14 21:33:14 · 1231 阅读 · 0 评论 -
EM算法通俗理解及数学推导
1、EM,exception maximum.用于非监督分类的学习方法。EM算法的思想:非监督学习中,只有数据、不知道数据属于什么参数(均值、方差)的高斯分布、不知道数据的类别标签,EM将各“类别”的高斯分布参数作为未知,最大化获得该组样本的概率。假设每个样本独立分布,获取该样本的概率为q则获取该组样本的概率为:通过最大似然,得到目标函数为。公式推导如下:方法本身原理为坐标上升法,即(...原创 2019-05-15 20:09:36 · 704 阅读 · 0 评论 -
集成学习方法简介:bagging、boosting、stacking
一、集成学习集成学习是将若干个学习器(分类器、回归器)组合之后产生一个新的学习器。一般来说,集成学习可以分为三类:bagging:减少方差,即防止过拟合boosting:减少偏差,即提高训练样本正确率stacking:提升预测结果,即提高验证精度弱分类器(weak learner)是指那些分类准确率值只稍好于随机猜测的分类器(error<0.5);集成算法的成功在于保证弱分类器...转载 2019-05-24 20:32:55 · 1696 阅读 · 0 评论 -
随机森林简介
随机森林是多个cart树弱分类器组合成的集成学习方法。1、cart 树如何选择特征、剪枝2、matlab随机森林包 百度云链接:原创 2019-05-24 21:37:22 · 557 阅读 · 0 评论 -
PCA原理及人脸识别matlab实现
一、PCA:降维,和因子分析的区别二、基于PCA的人脸识别(matlab实现)还是得先训练:基于庞大的样本库,例如现实中人脸拍照(银行、车站),都是数据采集,可以用来建立人脸库。使用PCA得到每个人的脸特征脸,对于新人脸,判断特征投影与哪个样本最近。三、网站的图片识别是如何做的?...原创 2019-05-24 21:50:15 · 5300 阅读 · 2 评论 -
训练和验证知识小结
1、训练误差和一般误差的误差界2、偏差-方差均衡偏差:预测结果的不正确性程度方差:拟合出来的奇怪的关系。3、模型的选择:选择最小的一般误差对于(1)多项式次数选择、(2)SVM惩罚力度、(3)局部加权回归带宽参数交叉验证方法:(1)训练集70%,测试集30%(2)k-fold 交叉验证。选择平均一般误差最小的(3)留1验证4、特征选择:(1)前向搜索,每次加入一个特征交叉验证...原创 2019-05-12 20:34:27 · 661 阅读 · 0 评论 -
关于机器学习类别不平衡问题
1、类别不平衡会造成什么?分类器学习不平衡。由于正负样本比例不同,造成分类器为了达到较高的分类精度,会侧重于学习样本数多的一方,造成小样本分类误差提高。例如,98个正例,2个负例,则分类器会侧重学习正例的隐含关系,而负类学习程度与否对最终的精度影响都很小。kappa系数可以降低类别样本数不平衡引起的精度偏差。2、训练集和验证集为什么要保持数据分布一致?不一致会造成精度不稳定。例如上例,验证集...原创 2019-07-18 19:51:14 · 543 阅读 · 0 评论