模糊聚类

最新推荐文章于 2025-03-21 10:15:13 发布

V丶Chao

最新推荐文章于 2025-03-21 10:15:13 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：聚类算法人工智能机器学习

本文链接：https://blog.youkuaiyun.com/u011698800/article/details/112393345

版权

机器学习专栏收录该内容

43 篇文章

订阅专栏

本文聚焦于无监督学习中的聚类算法，先提及KMeans等“硬”聚类算法，引出模糊聚类中的FCM算法。详细介绍了FCM算法的大致原理、通过示例展示其聚类效果及API使用，阐述了算法过程，还指出该算法存在易陷入局部最优、受初始化隶属度矩阵影响的缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（起笔于20200109 16点15分）

0. 引言

聚类方法在无监督学习中具有非常重要的意义，由于没有标签的存在，而我们又有将数据分成不同组的需要，所以就引出了聚类算法，例如KMeans，DBSCAN等。其中KMeans作为一种非常有效的方法，被广泛使用，该种方法通过在样本空间中，以缩小各个样本与类别（类别数目需要事先指定）中心的距离作为优化目标，最后实现聚类的效果。平时的使用过程中，我们也会将聚类算法作为一种数据前期探究过程的一种方法，通过这种方法查看数据的大致分布等等内容。

但前文提到的KMeans算法，属于一种“硬”聚类，每个样本有且仅有一个类别归属；但实际上，有时候我们可能需要一个度量值，来判断这个点不同类别的“归属感”，听起来有点像混合高斯分布一样的感觉，个人认为这样理解没有错误。

那么本篇文章就具体来介绍一下模糊聚类中的FCM（Fuzzy c-means Cluster）算法。

文章的内容组织如下，首先大致介绍FCM的原理，然后实际作图来说明FCM的效果（他人博客的代码），最后记录一下具体的算法。

（本人属于初步学习阶段，对于这部分内容依然还有很多理解上的不足，仅仅是作为本人的记录）

1. FCM

1.1 大致原理初识

FCM算法跟KMeans算法的流程框架大体上是很相似的，这里不展开将具体的原理，后面小节会具体展开。需要知道的是，FCM能够给每个点赋予隶属度，而这个隶属度就是他属于每个聚类中心的可能性。当然概率要满足一定的数值关系。而KMeans中的距离，也能起到这样的作用，只不过需要一定的换算关系，说不定这个数值就是我说的这种方法得来的，当然需要考证。

那么，也就是说，通过这样的聚类方法之后，每个点都有了一个隶属度关系，有这样的认识之后，那么我们首先来看看代码如何使用。

1.2 FCM的示例

这部分的代码来源于[1]-Fuzz Clustering，感兴趣的读者可以直接去查看原文。

1.2.1 导入库

import skfuzzy as fuzz
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

其中skfuzz通过命令pip install scikit-fuzzy安装。

1.2.2 生成数据

colors = ['b', 'orange', 'g', 'r', 'c', 'm', 'y', 'k', 'Brown', 'ForestGreen']


# Define three cluster centers
centers = [[1, 3],
           [2, 2],
           [3, 8]]

# Define three cluster sigmas in x and y, respectively
sigmas = [[0.3, 0.5],
          [0.5, 0.3],
          [0.5, 0.3]]

# Generate test data
np.random.seed(42)  # Set seed for reproducibility
xpts = np.zeros(1)
ypts = np.zeros(1)
labels = np.zeros(1)
for i, ((xmu, ymu), (xsigma, ysigma)) in enumerate(zip(centers, sigmas)):
    xpts = np.hstack((xpts, np.random.standard_normal(200) * xsigma + xmu))
    ypts = np.hstack((ypts, np.random.standard_normal(200) * ysigma + ymu))
    labels = np.hstack((labels, np.ones(200) * i))

# Visualize the test data
fig0, ax0 = plt.subplots()
for label in range(3):
    ax0.plot(xpts[labels == label], ypts[labels == label], '.')
ax0.set_title('Test data: 200 points.')
plt.show()

生成图片如下：
在这里插入图片描述

1.2.3 聚类效果

# Set up the loop and plot
fig1, axes1 = plt.subplots(3, 3, figsize=(10, 10))
alldata = np.vstack((xpts, ypts))
fpcs = []

for ncenters, ax in enumerate(axes1.reshape(-1), 2):
    cntr, u, u0, d, jm, p, fpc = fuzz.cluster.cmeans(
        alldata, ncenters, 2, error=0.005, maxiter=1000, init=None)

    # Store fpc values for later
    fpcs.append(fpc)

    # Plot assigned clusters, for each data point in training set
    cluster_membership = np.argmax(u, axis=0)
    for j in range(ncenters):
        ax.plot(xpts[cluster_membership == j],
                ypts[cluster_membership == j], '.', color=colors[j])

    # Mark the center of each fuzzy cluster
    for pt in cntr:
        ax.plot(pt[0], pt[1], 'rs')

    ax.set_title('Centers = {0}; FPC = {1:.2f}'.format(ncenters, fpc), size=12)
    ax.axis('off')

fig1.tight_layout()