
sklearn机器学习笔记
文章平均质量分 90
paracosm02
Life is too short to waste.
展开
-
sklearn学习之Spectral Clustering
基本思想 谱聚类是从图论中演化出来的算法,后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。 谱聚类的算法流程可总结如下: &nbs原创 2021-10-28 14:40:38 · 4560 阅读 · 0 评论 -
sklearn聚类算法之HAC
基本思想层次凝聚聚类算法(Hierarchical Agglomerative Clustering)是一种效果很好的聚类算法,简称HAC,它的主要思想是先把每个样本点当做一个聚类,然后不断地将其中最近的两个聚类进行合并,直到满足某个迭代终止条件,比如当前聚类数是初始聚类数的20%,80%的聚类数都被合并了。总结来说,HAC的具体实现步骤如下所示。 (1)将训练样本集中的每个数据点都当做一个聚类; (2)计算每原创 2021-10-27 23:13:47 · 2902 阅读 · 1 评论 -
RBF神经网络详解
一、 背景知识1988年,Broomhead、Lowe以及Moody和Darken最早将径向基函数用于神经网络设计。径向基函数神经网络(Radial Basis Function Neural Network,RBF神经网络)是一类常用的三层前馈网络,既可用于函数逼近,也可用于模式分类。与其他类型的人工神经网络相比,RBF网络有生理学基础,结构简单,学习速度快,优良的逼近性能等特点。二、什么是径向基函数径向基函数是一个取值仅仅依赖于离原点距离的实值函数(RBF)方法。也就是Φ(x,c)=Φ(∣∣x−原创 2021-10-21 00:26:39 · 50635 阅读 · 3 评论 -
sklearn聚类算法之DBSCAN
基本思想聚类是很多观察值紧密聚集在一起的区域,DBSCAN算法就是受这一点的启发而来的,它对于聚类的形状没有做任何假设。具体来说,DBSCAN算法有如下几步:先选择一个随机观察值如果xix_ixi的近邻数为最小限度数量的话,就把它归入一个聚类对xix_ixi的所有邻居重复执行步骤2,对邻居的邻居也如此,以此类推。这些点是聚类的核心观察值一旦步骤3处理完所有邻近的观察值,就选择一个新的随机点(重新开始执行步骤1)一旦完成这些步骤,我们就会得到一个聚类的核心观察值得集合。最后,凡是在聚类附近原创 2021-10-19 17:25:19 · 16427 阅读 · 0 评论 -
sklearn聚类算法之Meanshift
基本思想Meanshift是一个简单的概念,但不太好解释,用类比的方法解释或许比较容易理解。想象有一个雾气弥漫的足球场(即一个二维的特征空间),上面站着100个人(即我们的观察值)。因为雾很大,人只能看到很近的地方。每分钟每个人向四周看一看,然后朝着可以看到最多人的方向移动一步。随着时间流逝,因为人们一次次地朝着越来越大的人群移动,球场上的人开始聚集成一个小组,最终这些人就在球场上形成了聚类(cluster)。每个人的分类被指定为他们最终所在的分类。Meanshift算法步骤如下:首先以随机选取的点为原创 2021-10-19 16:18:11 · 3504 阅读 · 1 评论 -
sklearn聚类算法之Kmeans
基本思想K-Means聚类是最常见的一种聚类算法。在K-Means聚类中,算法试图把观察值分到k个组中,每个组的方差都差不多。分组的数量k是用户设置的一个超参数。具体来讲,K-Means算有如下几个步骤:随机创建k个分组(即cluster)的“中心“点对于每个观察值:(1) 算出每个观察值和这k个中心点之间的距离(2) 将观察值指派到离它最近的中心点的分组将中心点移动到相应分组的点的平均值位置重复步骤2和3,直到没有观察值需要改变它的分组。这时算法就被认为已经收敛,而且可以停止原创 2021-10-19 16:06:05 · 9203 阅读 · 1 评论