
机器学习教程
文章平均质量分 95
关注主流机器学习模型原理及其python实现
Liangjun_Feng
路漫漫,上下而求索
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习教程 之 半监督学习 基于图正则项的半监督极限学习机
半监督学习是指在模型训练阶段同时利用有标签数据和无标签数据。我之前介绍过的半监督学习方法包括基于分歧的半监督学习方法机器学习教程 之 半监督学习 Tri-training方法 (论文、数据集、代码)机器学习教程 之 半监督学习 Co-training 协同训练 (论文、算法、数据集、代码)机器学习教程 之 半监督学习 Coreg 协同回归算法 (论文、算法、数据集、代码)基于图的半监督学习方法DeepLearning | 图注意力网络Graph Attention Network(GAT)论文原创 2020-06-27 15:07:32 · 3583 阅读 · 18 评论 -
机器学习教程 之 半监督学习 Coreg 协同回归算法 (论文、算法、数据集、代码)
这篇博客介绍的是一篇用于半监督回归问题的方法:Semisupervised Regression withCotraining-Style Algorithms。 这是周志华老师在2007年较早的一篇文章,其特点在于,大多数半监督的算法都是用于分类问题的,而Coreg则以相对较简单的方式实现了半监督的回归。之前还写过两篇半监督分类的算法,见机器学习教程 之 半监督学习 Co-training, 以及机器学习教程 之 半监督学习 Tri-training此外,一些图模型也可以用于半监督的分类和回归原创 2020-05-30 18:29:20 · 8237 阅读 · 8 评论 -
机器学习教程 之 半监督学习 Co-training 协同训练 (论文、算法、数据集、代码)
这篇博客介绍的是一篇用于半监督分类问题的方法: 协同训练 Co-training, A. Blum and T. Mitchell, “Combining labeled and unlabeled data with co-training,” in Proc. of the 11th Annual Conf. on Computational Learning Theory, 1998.,这算是半监督领域里面始祖级的论文了,是1998年两位CMU大佬提出的方法。之前还写过一篇关于Tri-trainin原创 2020-05-24 19:09:10 · 17512 阅读 · 6 评论 -
机器学习教程 之 EM算法 :高斯混合模型聚类算法 (python基于《统计学习方法》实现,附数据集和代码)
之前写过一篇博客讲述极大似然方法, 这一方法通常适用于知道观测数据YYY,求解模型参数θ\thetaθ的场合,即P(Y∣θ)P(Y|\theta)P(Y∣θ)。但是,在更多场合除了模型参数是未知的外,还有隐变量ZZZ也是未知的,即P(Y,Z∣θ)P(Y,Z|\theta)P(Y,Z∣θ)。多个隐藏模型的混合,会使得普通的极大似然方法用起来不是那么方便,比如求解高斯混合模型(GMM), 隐马尔可夫...原创 2019-07-12 19:09:02 · 3326 阅读 · 8 评论 -
机器学习教程 之 生成模型与判别模型
最初知道生成模型与判别模型是从GAN里听到的,分别训练一个生成模型和判别模型,然后进行对抗,提升总体模型的性能,这是一个令人惊叹的创新和突破。这里总结一下生成模型和判别模型的特点和不同一、判别模型和生成模型的思想拿一个分别男女的二分类问题来说,判别模型就是要找到区分男女的划分边界,而生成模型则是要找到可以描述男女这两类数据分布的模型,可以用下面这张图简单概括一下判别模型要学习的是这里的划分...原创 2019-07-08 10:50:18 · 1051 阅读 · 6 评论 -
机器学习教程 之 半监督学习 Tri-training方法 (论文、数据集、代码)
asda原创 2019-06-14 21:28:26 · 10167 阅读 · 13 评论 -
机器学习教程 之 模型性能评价:受试者工作特征曲线 ROC与AUC
模型性能评价是每一位机器学习工作者都需要掌握的一项技能,除了最常见的损失函数比较,今天再向大家介绍一种稍微高明一点儿的方法 ROC与AUC在正式介绍ROC曲线之前,我们还需要介绍一些额外的知识:分类结果混淆矩阵 对于二分类问题,可将样本根据真实类别与学习器预测类别的组合划分为真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN),则显然有了 TP+FP+TN+FN=样本总数TP+...原创 2018-06-25 12:22:56 · 2496 阅读 · 0 评论 -
机器学习教程 之 参数搜索:GridSearchCV 与 RandomizedSearchCV || 以阿里IJCAI广告推荐数据集与XGBoostClassifier分类器为例
在使用一些比较基础的分类器时,需要人为调整的参数是比较少的,比如说K-Neighbor的K和SVM的C,通常而言直接使用sklearn里的默认值就能取得比较好的效果了。 但是,当使用一些大规模集成的算法时,参数的问题就出来了,比如说 XGBoost的参数大概在20个左右,GBDT的参数个数也在同一个级别,这种时候,会调参和不会调参在同样的数据集上效果可能就是两码事了。这里借着做阿里天池大赛的机会...原创 2018-04-03 20:51:24 · 7980 阅读 · 2 评论 -
机器学习教程 之 慢特征分析:时序特征挖掘
慢特征分析(slow feature analysis,SFA)是 wiskott 在2002年的一篇论文里提出来的无监督学习方法,它可以从时间序列中提取变化缓慢的特征,被认为是学习时间序列最显著特征的一种方法。这里只讲述SFA应用于线性问题时的模型和解法,其对于非线性问题的应用,是基于线性模型并结合核函数来进行优化的原创 2018-02-24 22:56:01 · 12944 阅读 · 0 评论 -
机器学习教程 之 随机森林: 算法及其特征选择原理
随机森林是集成学习bagging类方法的一种,也是最早的集成学习算法之一,Breiman在2001年提出了这种方法。作为一种bagging类的方法,随机森林几乎可以在绝大多数的数据集上表现出比单独的决策树更好的性能,同时随机森林本身也可以作为一种特征选择的方法。称为迄今为止最著名的算法之一。原创 2018-04-30 22:28:21 · 23541 阅读 · 5 评论 -
机器学习教程 之 加性模型:GBDT退化为AdaBoost原理
Gradient boosting是一种广泛被用于回归、分类和排序任务的集成方法,于2001年被Friedman提出 该类算法通过以上一轮基学习器的误差的负梯度为训练目标训练本轮的基学习器,不断降低集成模型在训练集上的偏差实现高精度的集成 基于Gradient Boosting算法的学习器被称为Gradient Boosting Machine(GBM),如果说AdaBoost是boostin...原创 2018-06-12 22:26:07 · 1837 阅读 · 0 评论 -
机器学习教程 之 梯度提升方法:GBDT处理分类问题
Gradient boosting是一种广泛被用于回归、分类和排序任务的集成方法,于2001年被Friedman提出 该类算法通过以上一轮基学习器的误差的负梯度为训练目标训练本轮的基学习器,不断降低集成模型在训练集上的偏差实现高精度的集成 基于Gradient Boosting算法的学习器被称为Gradient Boosting Machine(GBM),如果说AdaBoost是boostin...原创 2018-06-12 21:33:23 · 7814 阅读 · 14 评论 -
机器学习教程 之 梯度提升方法:GBDT及其扩展模型XGBoost
Gradient boosting是一种广泛被用于回归、分类和排序任务的集成方法,于2001年被Friedman提出 该类算法通过以上一轮基学习器的误差的负梯度为训练目标训练本轮的基学习器,不断降低集成模型在训练集上的偏差实现高精度的集成 基于Gradient Boosting算法的学习器被称为Gradient Boosting Machine(GBM),如果说AdaBoost是boostin...原创 2018-04-29 16:06:59 · 9573 阅读 · 2 评论 -
机器学习教程 之 Boosting 与 bagging:集成学习框架
集成学习是机器学习算法中非常耀眼的一类方法,它通过训练多个基本的分类器(如支持向量机、神经网络、决策树等),再通过基本分类器的决策融合,构成一个完整的具有更强学习分辨能力的学习器。在集成学习中,那些基本学习器一般被称为为“弱学习器“,机器学习的目的就是通过集成众多的“弱学习器“使分类性能达到理想的“强学习器“的效果,从而避免构造复杂的强学习器。简而言之集成学习就是“三个臭皮匠顶一个诸葛亮“的道理 ...原创 2018-03-11 20:36:06 · 4239 阅读 · 0 评论 -
机器学习教程 之 支持向量机: 代码篇(基于SMO算法求解)
支持向量机是机器学习领域里最强的几种分类器之一,被广泛的运用于各种分类回归问题,如果不考虑集成学习算法以及近几年出现的深度学习算法,支持向量机的性能可以说是在学习领域具有统治地位,在一些中小型的数据集上它的性能甚至能够超过一些深度学习网络。其基本原理相当简单,但是模型的求解和优化却十分复杂,很难描述清楚,这里我会一步一步,尽我所能分章节的将它总结完善模型篇· 支持向量机:模型篇1–...原创 2018-03-07 18:54:36 · 831 阅读 · 0 评论 -
支持向量机导论
向量机的求解与优化确实是一个比较复杂的过程,系统的研究过三次,也不敢说自己能窥得全貌,越看越惊叹于前人的思想。 博文用以记录和总结,前前后后写了两个月,中间修改过不少次,参考了很多前人总结的内容,水平有限,难免会有错误和不当,欢迎交流与指正原创 2018-01-24 14:19:43 · 757 阅读 · 0 评论 -
机器学习教程 之 支持向量机:模型篇5–向量机的软间隔拓展
支持向量机是机器学习领域里最强的几种分类器之一,被广泛的运用于各种分类回归问题,如果不考虑集成学习算法以及近几年出现的深度学习算法,支持向量机的性能可以说是在学习领域具有统治地位,在一些中小型的数据集上它的性能甚至能够超过一些深度学习网络。其基本原理相当简单,但是模型的求解和优化却十分复杂,很难描述清楚,这里我会一步一步,尽我所能分章节的将它总结完善· 支持向量机:模型篇1–支持向量与间隔原创 2018-01-24 13:49:15 · 956 阅读 · 0 评论 -
机器学习教程 之 支持向量机:模型篇4–核函数与非线性优化
支持向量机是机器学习领域里最强的几种分类器之一,被广泛的运用于各种分类回归问题,如果不考虑集成学习算法以及近几年出现的深度学习算法,支持向量机的性能可以说是在学习领域具有统治地位,在一些中小型的数据集上它的性能甚至能够超过一些深度学习网络。其基本原理相当简单,但是模型的求解和优化却十分复杂,很难描述清楚,这里我会一步一步,尽我所能分章节的将它总结完善原创 2018-01-24 12:14:52 · 2414 阅读 · 0 评论 -
机器学习教程 之 支持向量机:模型篇3–对偶问题的求解: SMO算法
支持向量机是机器学习领域里最强的几种分类器之一,被广泛的运用于各种分类回归问题,如果不考虑集成学习算法以及近几年出现的深度学习算法,支持向量机的性能可以说是在学习领域具有统治地位,在一些中小型的数据集上它的性能甚至能够超过一些深度学习网络。其基本原理相当简单,但是模型的求解和优化却十分复杂,很难描述清楚,这里我会一步一步,尽我所能分章节的将它总结完善原创 2018-01-17 15:38:07 · 2924 阅读 · 0 评论 -
机器学习教程 之 支持向量机:代码篇(二分类、非线性、软间隔)
支持向量机是机器学习领域里最强的几种分类器之一,被广泛的运用于各种分类回归问题,如果不考虑集成学习算法以及近几年出现的深度学习算法,支持向量机的性能可以说是在学习领域具有统治地位,在一些中小型的数据集上它的性能甚至能够超过一些深度学习网络。其基本原理相当简单,但是模型的求解和优化却十分复杂,很难描述清楚,这里我会一步一步,尽我所能分章节的将它总结完善· 支持向量机:模型篇1–支持向量与间隔原创 2017-09-20 22:48:55 · 4109 阅读 · 1 评论 -
机器学习教程 之 支持向量机:模型篇2–支持向量的拉格朗日对偶
支持向量机是机器学习领域里最强的几种分类器之一,被广泛的运用于各种分类回归问题,如果不考虑集成学习算法以及近几年出现的深度学习算法,支持向量机的性能可以说是在学习领域具有统治地位,在一些中小型的数据集上它的性能甚至能够超过一些深度学习网络。其基本原理相当简单,但是模型的求解和优化却十分复杂,很难描述清楚,这里我会一步一步,尽我所能分章节的将它总结完善· 支持向量机:模型篇1–支持向量与间隔原创 2018-01-08 12:42:47 · 2028 阅读 · 0 评论 -
机器学习教程 之 支持向量机:模型篇1—支持向量与间隔
[支持向量机是机器学习领域里最强的几种分类器之一,被广泛的运用于各种分类回归问题,如果不考虑集成学习算法以及近几年出现的深度学习算法,支持向量机的性能可以说是在学习领域具有统治地位,在一些中小型的数据集上它的性能甚至能够超过一些深度学习网络。其基本原理相当简单,但是模型的求解和优化却十分复杂,很难描述清楚,这里我会一步一步,尽我所能分章节的将它总结完善· 支持向量机:模型篇1–支持向量与间原创 2017-12-21 23:43:55 · 2934 阅读 · 0 评论 -
机器学习教程 之 SKlearn 中 PCA 算法的运用:人脸识别实例
一.PCA原理简介关于主成分分析算法,即 Principal conponent analysis ,PCA是数据分析与挖掘领域最常见也是最经典的降维方法。它通过对原数据的协方差矩阵进行广义特征值的求解,将原数据矩阵转化到另一组正交基空间(即特征向量空间)当中,在这一正交基空间中不同的维度具有不同权重,这一权重的大小对应相应的特征向量的特征值的大小,特征值越大,原数据在这一维度的重要性越大,即这一维原创 2017-11-29 14:15:03 · 6739 阅读 · 2 评论 -
机器学习教程 之 独立成分分析:PCA的高阶版
有好些天没写博客了,最近一直忙着在看论文,解模型,着实有点头痛。今天趁着又到周末了更一帖(其实是模型解不下去了…),这次来说一下一个在信号分析与数据挖掘领域颇为使实用的算法,独立成分分析(ICA),这个算法的求解方式会让人决定新奇而有所启发,可能会给你带来新的思路,这一篇算法已经有很多大神写过了,比如: http://blog.youkuaiyun.com/neal1991/article/details/4原创 2017-10-20 11:28:34 · 6910 阅读 · 11 评论 -
机器学习教程 之 K-means聚类:简单有效的聚类方法
聚类是指将数据集中的样本划分为若干个不相交的子集,子集内元素的相似度大,而子集间元素的相似度小。K-means(K均值)聚类是一种非常简单有效、同时解释性也非常强的算法,看了一些相似内容的博客,将这一内容说的颇为复杂,这里将以尽量简单简介的方式,将这一内容介绍给初学者学习一、相似度即距离 二、K-means算法一、相似度即距离如开题所说,聚类是通过判断样本间的相似度来进行的,这种相似度我们通常使用原创 2017-10-03 13:42:46 · 1798 阅读 · 0 评论 -
机器学习教程 之 集成学习算法: 深入刨析AdaBoost
一、什么是集成学习? 二、AdaBoost算法 三、AdaBoost的python3实现(决策树桩为基分类器) 四、AdaBoost算法性能的影响因素 五、AdaBoost算法的优缺点 六、随机森林算法简介一、什么是集成学习?集成学习(ensemble learning)是机器学习算法当中的一类,它通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-cl...原创 2017-09-28 14:54:42 · 3784 阅读 · 0 评论 -
机器学习教程 之 朴素贝叶斯分类器:判别皮马印第安糖尿病人数据集
本科的时候就看过贝叶斯判别和贝叶斯分类,趁这次正好找到了一个比较合适的数据集—皮马印第安糖尿病人数据集,就顺手写了一个,写出来发现正确率还可以,因为写的比较急,所以代码可能没有那么美观,改就不重新改了,在讲解时我尽量给代码多加一些注释一、贝叶斯判别 二、朴素贝叶斯分类器 三、皮马印第安糖尿病人数据集 四、朴素贝叶斯分类器的python实现一、贝叶斯判别 从统计学的角度来看,机器学习原创 2017-09-21 22:30:45 · 7781 阅读 · 12 评论 -
机器学习教程 之 人工神经网络的前世今生:标准BP神经网络原理
参考了一些书籍和博客,整理了关于神经网络的简单发展历史,给出BP神经网的计算原理与python3源码,供对相关领域感兴趣的小伙伴学习一、神经网络发展的沉浮 二、BP神经网络算法原理 三、BP神经网络算法python3实现一、神经网络发展的沉浮早在二十世纪四十年代M-P神经元模型、Hebb学习率等相关理论便发展起来,1949年神经心理学家Hebb出版《行为组织学》(Organizat原创 2017-09-18 09:57:36 · 5361 阅读 · 6 评论 -
机器学习教程 之 线性模型:线性回归、对数几率回归、线性判别分析
常用的三个线性模型的原理及python实现——线性回归(Linear Regression)、对数几率回归(Logostic Regression)、线性判别分析(Linear Discriminant)。 这可能会是对线性模型介绍最全面的博客一、线性模型 (Linear Model) 二、线性回归 (Linear Regression) 三、对数几率回归(Logistic Regression原创 2017-08-31 22:57:20 · 5734 阅读 · 0 评论