
统计与机器学习
Anakin6174
这个作者很懒,什么都没留下…
展开
-
K-means算法的原理、优缺点
文章内容转载自:http://blog.youkuaiyun.com/sinat_35512245/article/details/55051306 K-means方法是一种非监督学习的算法,它解决的是聚类问题1、算法简介:K-means方法是聚类中的经典算法,数据挖掘十大经典算法之一;算法接受参数k,然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足聚类中的对象相似度较高转载 2020-07-31 23:31:59 · 12472 阅读 · 0 评论 -
学习小笔记---机器学习
看书的时候做点笔记,偶尔翻出来看看才能真正掌握;否则很快就遗忘了(艾宾浩斯遗忘曲线)。** 1 集成学习**集成学习 (ensemble learning)通过构建并结合多个学习器来完成学习任务。根据个体学习器的生成方式 ,集成学习方法大致可分为两大类:即个体学习器问存在强依赖关系、必须串行生成的序列化方法?以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表是 Boosting,后者的代表是 Bagging 和"随机森林" (Random Forest) 。Boosting 是一族原创 2020-06-09 19:28:26 · 383 阅读 · 0 评论 -
sklearn数据预处理
sklearn.preprocessing包提供了一些常用的工具函数来对数据进行预处理。一般来说,机器学习算法在经过预处理的数据上能够取得更好的效果。1, 标准化数据集的标准化是许多在scikit-learn中实现的机器学习估计器的普遍要求。如果各个特征看上去或多或少不像标准正态分布数据,则它们的性能可能会很差:平均值和单位方差为零的高斯。在实践中,我们经常忽略分布的形状,而只是通过删除每个...原创 2020-03-20 16:45:55 · 476 阅读 · 0 评论 -
集成学习Boosting之AdaBoost
集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,常可获得比单一学习器显著优越的泛化性能。根据个体学习器的生成方式,可将集成学习方法分为两大类,以随机森林(Random Forest)为代表的Bagging算法,其个体学习器间不存在强依赖关系、可同时生成的并行化方法;以及以AdaBoost为代表的Boosting算法,其个体学习器存在强依赖关系、必须串行生成的序...原创 2019-04-27 16:29:24 · 352 阅读 · 0 评论 -
学习笔记之神经网络
周志华老师的西瓜书第五章,用了十几页就介绍了神经网络包括深度学习在内的知识点,介绍了主流的多个模型,涉及面很广,算是一个概述。1,神经元模型神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真是世界物体所作出的交互反应。沿用至今的是McCulloch and Pitts在1943年提出的“M-P神经元模型”。在这个模型中,神经元接受来自n个其他神经元传递...原创 2019-04-07 21:09:24 · 573 阅读 · 0 评论 -
转载:局部异常因子算法
局部异常因子算法-Local Outlier Factor(LOF) 在数据挖掘方面,经常需要在做特征工程和模型训练之前对数据进行清洗,剔除无效数据和异常数据。异常检测也是数据挖掘的一个方向,用于反作弊、伪基站、金融诈骗等领域。 异常检测方法,针对不同的数据形式,有不同的实现方法。常用的有基于分布的方法,在上、下α分位点之外的值认为是异常值(...转载 2019-03-18 13:43:28 · 749 阅读 · 0 评论 -
单分类之OneClassSVM
OneClassSVM是一种单分类算法,也常用来做异常检测(不符合常规模式的即为异常)。原创 2019-03-12 22:23:23 · 12872 阅读 · 2 评论 -
基于孤立森林的异常检测
iForest (Isolation Forest)孤立森林 是一个基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法,由周志华教授等人提出,在工业界得到很好的应用。在孤立森林(iForest)中,异常被定义为“容易被孤立的离群点 (more likely to be separated)”,可以将其理解为分布稀疏且离...原创 2019-02-17 20:28:04 · 2624 阅读 · 0 评论 -
用Python做非参数检验
显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。所谓统计假设检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设是否合理。而把只限定第一类错误概率的统计假设检验就称之为显著性检验。显著性检验可以分为参数检验和非参数检验。参数检验要求样本来源于正态总体(服从正态分布),且这些正态总体拥有相同的方差,在这样的基本假定(正态性...原创 2018-11-21 22:23:44 · 11256 阅读 · 2 评论