聚类算法KMeans

本文从互联网搬运,只用于本人学习记录。

K-means 是我们最常用的基于欧式距离的聚类算法,其认为两个目标的距离越近,相似度越大。

1. 算法

1.1. 算法步骤

在这里插入图片描述

1.2. 复杂度

在这里插入图片描述

2. 优缺点

优点:

  • 容易理解,聚类效果不错,虽然是局部最优, 但往往局部最优就够了;
  • 处理大数据集的时候,该算法可以保证较好的伸缩性
  • 簇近似高斯分布的时候,效果非常不错;
  • 算法复杂度低

缺点:

  • K 值需要人为设定,不同 K 值得到的结果不一样;
  • 初始的簇中心敏感,不同选取方式会得到不同结果;
  • 异常值敏感
  • 样本加粗样式只能归为一类,不适合多分类**任务;
  • 不适合太离散的分类、样本类别不平衡的分类、非凸形状的分类

3. 算法调优 & 改进

3.1. 数据预处理

K-means 的本质是基于欧式距离的数据划分算法,均值和方差大的维度将对数据的聚类产生决定性影响。所以未做归一化处理和统一单位的数据是无法直接参与运算和比较的。常见的数据预处理方式有:数据归一化,数据标准化。

此外,离群点或者噪声数据会对均值产生较大的影响,导致中心偏移,因此我们还需要对数据进行异常点检测。

欧氏距离:
在这里插入图片描述

3.2. 合理选择 K 值

K 值的选取对 K-means 影响很大,这也是 K-means 最大的缺点,常见的选取 K 值的方法有:手肘法、Gap statistic 方法

  1. 手肘法
    在这里插入图片描述
  2. Gap statistic方法
    在这里插入图片描述

3.3. 采用核函数

基于欧式距离的 K-means 假设了各个数据簇的数据具有一样的的先验概率并呈现球形分布,但这种分布在实际生活中并不常见。面对非凸的数据分布形状时我们可以引入核函数来优化,这时算法又称为核 K-means 算法,是核聚类方法的一种。核聚类方法的主要思想是通过一个非线性映射,将输入空间中的数据点映射到高位的特征空间中,并在新的特征空间中进行聚类。非线性映射增加了数据点线性可分的概率,从而在经典的聚类算法失效的情况下,通过引入核函数可以达到更为准确的聚类结果。

3.4. K-Means++

在这里插入图片描述

3.5. KMeans代码

import numpy as np
import matplotlib.pyplot as plt
import random
import math

class KMeans(object):
    def __init__(self, k, data):
        self
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值