
K-Means
文章平均质量分 94
Carolinedy
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
K-Means 聚类算法分析客户群价值
K-Means 算法是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预订的类树 K,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度越大。度量样本之间的相似性最常用的是 欧几里得距离、曼哈顿距离和闵可夫斯基距离;(Scikit-Learn 中的 KMeans 算法仅仅支持欧氏距离,因为采用其他的距离并不一定能够保证算法的收敛性。)度量聚类质量的目标函数...原创 2018-06-22 17:30:18 · 5939 阅读 · 0 评论 -
数据挖掘流程总结及挖掘算法比较
一、数据前期探索 数据质量分析: 是数据预处理的前提主要任务:检查原始数据中是否存在脏数据脏数据:不符合要求,以及不能直接进行相应分析的数据。包括:缺失值,异常值,不一致的值,重复数据,含有特殊符号的数据。1、缺失值处理方式:删除存在缺失值的记录; 对可能值进行插补; 不处理。2、异常值(离群点)处理方式: 简单统计量分析(判断变量取值是否超出范围); ...原创 2018-08-07 15:43:52 · 8707 阅读 · 2 评论