
机器学习
Hαlcyon
这个作者很懒,什么都没留下…
展开
-
基于自编码器实现无监督异常检测系统
作为自编码器的入门项目,我实现了一个无监督的异常检测系统,传统的异常检测手段有很多,在有监督时可以单纯用多分类问题来判别异常,也可以用高斯聚类来帮助判别异常出现的概率。这里如果要实现无监督学习的异常检测,一种方法是借助数据降维和聚类来帮助我们实现无监督数据聚类,然后在此之上进行异常检测。这里用MNIST的1-9的数字作为正常样本,0的数字作为异常样本。使用Auto-encoder降维和一些聚类算...原创 2020-04-05 00:32:35 · 7213 阅读 · 7 评论 -
线性代数的应用场景
机器学习与线性代数自打我开始学习机器学习的相关知识以来,线性代数就一直是制约我读懂算法的最大短板。尽管经过大概两个月的学习,我的代数知识积累似乎已经足以让我不害怕任何数学推导了,但是毕竟是将来要赖以生存的本领,如果有一天忘记了它们我会很沮丧的。所以这里我还是决定整理一下与机器学习相关的所有数学知识,方便随时查阅,杜绝忘却。笔记将以花书《深度学习》为思维导向,从底到上梳理各种可能用到的数学知识。代数的运算律和标量类似的运算律有分配律、结合律,而一般不满足交换律,因为代数是有维度的。AB≠BAexp:原创 2020-05-25 00:14:06 · 5427 阅读 · 0 评论 -
统计学习方法(4) GBDT算法解释与Python实现
回归树统计学习的部分也差不多该结束了,我希望以当前最效果最好的一种统计学习模型,Xgboost的原型GBDT来结尾。GBDT的基础是CART决策树。在CART基学习器上使用boosting,形成更好的集成学习器,就是GBDT的思想。CART在离散特征上的表现并不特别,也就是把我们之前学过的C4.5树用基尼系数划分。但在连续特征上使用树算法进行拟合回归就并没有那么轻松,一是划分标准不容易确定,二...原创 2020-04-01 14:54:01 · 1987 阅读 · 1 评论 -
统计学习方法(1) 梯度下降法和SMO算法实现SVM
在各种各样强大的神经网络被提出之前,SVM在机器学习领域一直是走在前列的模型;尤其是在数据规模较小时,SVM的特性能够有效保证模型不会出现严重的过拟合,从而提升模型表现。即使在今天,尽管GBDT和各式各样的深度学习模型大行其道,SVM仍然在数据挖掘领域占有一席之地。我个人认为,深入学习SVM对入门机器学习帮助巨大。SVM涉及的概念,包括了基础线性分类器,间隔最大约束最优化,核技巧以及拉格朗日松弛...原创 2020-03-30 00:35:49 · 2053 阅读 · 2 评论 -
无监督学习(2) 数据降维简述与Python实现
KNNk近邻算法简称kNN(k-Nearest Neighbor),是一种经典的监督学习方法,同时也实力担当入选数据挖掘十大算法。其工作机制十分简单粗暴:给定某个测试样本,kNN基于某种距离度量在训练集中找出与其距离最近的k个带有真实标记的训练样本,然后给基于这k个邻居的真实标记来进行预测,类似于前面集成学习中所讲到的基学习器结合策略:分类任务采用投票法,回归任务则采用平均法。这是一种相当朴素...原创 2020-03-01 17:34:50 · 959 阅读 · 0 评论