
聚类算法
文章平均质量分 93
rolin-刘瑞
技术GEEK
展开
-
数据挖掘中的常用聚类算法-提纲
聚类相关的概念:相似性、距离度量(单连接、全连接、平均、质心、中心)、异常点算法分类:层次算法、划分算法层次算法:(凝聚、分裂)、谱系图的概念简单的凝聚算法——最近邻聚类:自增距离d至阀值、每次合并距离基于mst的层次凝聚聚类:从生成的mst上,根据距离合并簇分裂:基于mst的分裂,与上述mst凝聚相逆划分算法判定聚类转载 2014-04-14 11:45:00 · 6904 阅读 · 0 评论 -
Mahout安装与配置,以及结果查看
Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。Hadoop的安装网上很多,并不复杂,这里不再讲述,接下来阐述怎么安装Mahout。1:下载二进制解压安装。到http://labs.renren.com/apache-mirror/mahout/0.7下载,我选择下载二进制包,直接解压及可。hadoop@ubuntu:~$ tar -zxvf转载 2014-04-14 11:49:20 · 7518 阅读 · 0 评论 -
使用 Spark MLlib 做 K-means 聚类分析
摘要: MLlib 是 Spark 生态系统里用来解决大数据机器学习问题的模块。本文将以聚类分析这个典型的机器学习问题为基础,向读者介绍如何使用 MLlib 提供的 K-means 算法对数据做聚类分析,我们还将通过分析源码,进一步加深读者对 MLlib K-means 算法的实现原理和使用方法的理解。引言提起机器学习 (Machine Learning),相信很多计算机从业者都会转载 2017-06-28 18:58:08 · 7963 阅读 · 0 评论 -
基于sk-learn的DBSCAN聚类算法
在DBSCAN密度聚类算法中,我们对DBSCAN聚类算法的原理做了总结,本文就对如何用scikit-learn来学习DBSCAN聚类做一个总结,重点讲述参数的意义和需要调参的参数。1. scikit-learn中的DBSCAN类 在scikit-learn中,DBSCAN算法类为sklearn.cluster.DBSCAN。要熟练的掌握用DBSCAN类来聚类,除了对DBSCA转载 2017-07-10 20:34:31 · 8089 阅读 · 0 评论