大数据之数据挖掘理论笔记聚类问题之K-means

最新推荐文章于 2023-07-07 08:17:39 发布

原创

最新推荐文章于 2023-07-07 08:17:39 发布 · 1.7k 阅读

0 ·

CC 4.0 BY-SA版权

大数据之数据挖掘理论笔记聚类问题之K-means

推荐参考博文： http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html

推荐参考博文： http://blog.youkuaiyun.com/cyxlzzs/article/details/7416491 试过了，确实可运行。

http://blog.youkuaiyun.com/ghostfromheaven/article/details/6516188

1. 聚类的理解

聚类是一个划分数据对象集的过程。一个数据对象集被划分为几个簇，并且簇内对象之间具有较高的相似性，但与其他簇中的对象却很不相似。划分依据往往是描述对象的属性值评估，通常涉及距离量度。划分方法采用聚类算法，即使对于相同的数据集，不同的聚类方法可能产生不同的聚类结果。

聚类的类标号信息是未知的（即每个训练元组隶属哪一类示先并未知晓），因此聚类是无监督学习。

2. 聚类应用领域

商务智能、图像识别、Web搜索等

聚类用于离群点检测 outlier detection（如：信用卡欺诈检测）

3. 聚类的两种经典方法

基于距离的方法 K-means

基于密度的方法 DBScan

4. K-means (K-均值)

聚类算法核心思想：把数据集中的对象分区，每个分区代表一个簇；簇的形成旨在优化一个客观划分准则（如基于距离的相异性函数，e.g.簇中所有对象与该簇代表形心之间的误差平方和），使得根据数据集的属性，在同一个簇中的对象相似，不同簇中的对象相异。

K-means算法的核心要点：1. K-means算法把簇的形心定义为簇内所有点的均值；2. 根据业务需求K示先给

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

houxiaoqin

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大数据领域数据挖掘的技术融合

AI天才研究院

04-21

1736

随着物联网（IoT）、5G与人工智能的普及，全球数据总量已从TB级跃升至ZB级（IDC预测2025年全球数据量将达175ZB）。传统数据挖掘技术（如基于单机的决策树、K-means聚类）在处理海量、高速、多源异构数据时，面临计算瓶颈（如内存限制、单节点算力不足）、实时性缺陷（如批处理延迟）与模型泛化能力弱（如无法处理非结构化数据）等问题。本文聚焦大数据技术与数据挖掘的深度融合海量数据的存储与并行计算多模态数据（文本、图像、图结构）的统一建模实时流数据的在线挖掘与决策。

机器学习/数据挖掘面试问题——第9章聚类

最新发布

LiangManqi0320的博客

05-18

503

将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个簇（类）。

参与评论您还未登录，请先登录后发表或查看评论

大数据挖掘实践——K-Means聚类算法

weixin_45034110的博客

07-13

1747

大数据挖掘实践 K-Means聚类算法引言：有n个数据D={X1,X2,…,Xn}，我们想把这些数据分成K个类。这个问题的关键在于K为多大时分类是合适的，并且我们也不好选择一个好的初始点。所以我们在这里引入距离的概念（以欧式距离为例）。我们想找到K个中心，数据离哪些中心近我们就将其定义为哪一类，同时我们的K个中心能够使这个分类最合理也就是每个点到其中心的距离的和最小。提炼为：找K个中心，数据属于距离离其最近的中心一类，这K个中心能使所有数据距离其中心的距离和最小。算法介绍： L-Means又叫做K均值

聚类算法——k-means算法

coder_Gray的博客

03-26

2883

数据挖掘数据挖掘（Data Mining，DM）是从大量数据中提取信息以查看隐藏的知识并便于将其用于实时应用程序。 DM有多种用于数据分析的算法。用于分析的一些主要DM技术是聚类，关联，分类等。聚集是用于探索性数据分析的有效技术，并已在各种领域中找到应用。大多数现有的聚类方法可以分为三类：分区，分层，基于网格和基于模型的方法。基于分区的聚类生成数据分区，使得集群中的对象与其他集群中的对象相比更加相...

【海量数据挖掘/数据分析】之 K-Means 算法（K-Means算法、K-Means 中心值计算、K-Means 距离计算公式、K-Means 算法迭代步骤、K-Means算法实例）

仙魁XAN

07-07

2万+

① 给定条件 :给定数据集 X , 该数据集有 n 个样本;将其分成 K 个聚类;③ 聚类分组要求 :每个聚类分组中 , 所有的数据样本 , 与该分组的中心点的距离之和最小;将每个样本的与中心点距离计算出来 , 分组中的这些距离累加 , K 个分组的距离之和也累加起来 , 总的距离最小;①设置中心点 :设置了 3 个初始中心点 , A1(2,4) 对应聚类 1 中心点 , B1(5,8) 对应聚类 2 中心点 , C1(6,2) 对应聚类 3 中心点;②计算中心点距离。

数据挖掘之聚类

viewcode的专栏

06-24

8152

聚类属于无监督学习。聚类的算法有很多种，其可分为基于划分、层次、密度、网格及模型的聚类方法。根据数据集的不同，需要采用不同的聚类算法和策略。 1. 选择聚类算法，所面临的常见问题又哪些？ 1）不同形状的数据集。不同形状的数据集，也需要采取不同的度量策略，或者不同的聚类算法。 2）不同的数据次序。相同数据集，但数据输入次序不同，也会造成聚类的结果的不同。 3）噪声。不同的算

大数据十大经典算法之k-means

天道酬勤

11-04

4283

kj K均值算法是基于质心的技术。它以K为输入参数，把n个对象集合分为k个簇，使得簇内的相似度高，簇间的相似度低。处理流程： 1、为每个聚类确定一个初始聚类中心，这样就有k个初始聚类中心； 2、将样本按照最小距离原则分配到最邻近聚类 3、使用每个聚类中的样本均值作为新的聚类中心 4、重复步骤2直到聚类中心不再变化 5、结束，得到K个聚类划分聚类方法对数据集进行聚类时的要点 1

机器学习笔记-聚类分析之K-means算法案例及其Python实现

热门推荐

lilu916的博客

06-10

7万+

引言： 数据挖掘的本质是“计算机根据已有的数据做出决策”，其对社会的价值不必多言，相关的应用已经有很多，包括垃圾邮件拦截、客户价值分析等。尽管数据挖掘实现过程的细节千差万别，但是从思路来说，主要包括两个方面：1、创建数据集；2、建模调整算法。算法是数据挖掘最核心的部分，作为一名学习新人，在参考《数据挖掘导论》、《Python数据分析与挖掘实战》、《Python数据挖掘入门与实战

【聚类分析科学】K-means与层次聚类：数据分组的高级策略

![【聚类分析科学】K-means与层次聚类：数据分组的高级策略](https://editor.analyticsvidhya.com/uploads/34513k%20means.png) ...聚类在数据挖掘、图像分析、市场细分等多个领域中都发挥着重要的作用。聚类的

聚类（三）k-means++、k-means参数、Mini Batch K-Means

小麦粒的Python

07-31

4908

k-means 优缺点：** 　1.算法快速、简单; 　2.对大数据集有较高的效率并且是可伸缩性的; 　3.时间复杂度近于线性，而且适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是O(n×k×t) ,其中n代表数据集中对象的数量，t代表着算法迭代的次数，k代表着簇的数目　。计算复杂度在最坏的情况下为 O(n^(k+2/p))，其中n是样本量，p是特征个数。

k-means离群点剔除法matlab代码

04-17

k-means离群点剔除法：主要运用聚类均值方法剔除数据中的离群点，增强模型预测的精度等，本文为matlab代码

数据挖掘2.6——聚类知识点整理

定期分享我的发现和想法，感谢你的陪伴和支持

05-15

6976

1.聚类分析概述 2.基本聚类方法2.1 划分方法1.Kmeans算法2.k-modes算法3.KMeans++算法4.k-中心点2.2 层次方法2.3基于密度的方法 3.聚类评估

数据挖掘十大算法--K-均值聚类算法

小硒---代码无疆

04-24

9271

一、相异度计算在正式讨论聚类前，我们要先弄清楚一个问题：如何定量计算两个可比较元素间的相异度。用通俗的话说，相异度就是两个东西差别有多大，例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度，这是能我们直观感受到的。但是，计算机没有这种直观感受能力，我们必须对相异度在数学上进行定量定义。设，其中X，Y是两个元素项，各自具有n个可度量特征属性，那么X和Y的相异度定义为：，

k-means算法介绍及相关问题解决

至臻求学，胸怀云月

10-18

2076

k-means算法介绍条件及约定：设待分类的模式特征矢量集为{x1,x2,…,xN}；类的数目K是事先取定的。基本思想：首先任意选取K个聚类中心，按最小距离原则将各模式分配到K类的某一类；不断计算聚类中心和调整各模式的类别，最终使各模式到其判属类别中心的距离平方之和最小。准则函数：聚类集中每一样本点到该类中心的距离平方和。算法步骤 [外链图片转存失败,源站可能有防盗链...

使用K-Means聚类算法检测离群点

maiyida123的博客

06-09

8072

使用K-Means聚类算法检测电商RFM模型中的离群点，并检验。

数据挖掘 k-means离群点检测

DAo_1990的博客

07-07

1万+

k-means离群点检测改写一种简单的半监督方法，用于离群点检测。使用一种你熟悉的程序设计语言，如C++或Java，实现该方法，并在两种不同的数据集上进行讨论（1）只有一些被标记的正常对象；（2）只有一些被标记的离群点实例。一、数据集介绍1、Iris数据集介绍 iris以鸢尾花的特征作为数据来源，数据集包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性，是在数据挖掘、数据分类中非常

数据挖掘第八章——聚类分析

weixin_45876739的博客

12-27

3320

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分

机器学习算法系列(5)--k-means

淡淡的倔强的博客

08-10

909

本文转载自：k-means|endymecy 前言 k-means、k-means++以及k-means||算法分析本文会介绍一般的k-means算法、k-means++算法以及基于k-means++算法的k-means||算法。在spark ml，已经实现了k-means算法以及k-means||算法。本文首先会介绍这三个算法的原理，然后在了解原理的基础上分析spark中的实现代码...

机器学习-KMeans聚类 K值以及初始类簇中心点的选取

weixin_30655569的博客

01-26

3534

本文主要基于Anand Rajaraman和Jeffrey David Ullman合著，王斌翻译的《大数据-互联网大规模数据挖掘与分布式处理》一书。 KMeans算法是最常用的聚类算法，主要思想是:在给定K值和K个初始类簇中心点的情况下，把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)，然后再迭...

数据挖掘分析技巧与学习笔记

资源摘要信息:"数据挖掘与分析学习笔记数据" 在开始详细解释之前，需要澄清的是，您提供的信息似乎不包含完整的文件内容，而是文件的基本属性和描述。由于没有实际的文件内容提供，我将基于常见的数据挖掘和分析...

大数据之数据挖掘理论笔记 聚类问题之K-means

大数据之数据挖掘理论笔记聚类问题之K-means