kmeans实现

import numpy as np
from sklearn.datasets import make_blobs  # 用于生成测试数据
import matplotlib.pyplot as plt

class SimpleKMeans:
    def __init__(self, n_clusters=3, max_iter=100, tol=1e-4):
        self.n_clusters = n_clusters
        self.max_iter = max_iter
        self.tol = tol
        self.centroids = None
        self.labels = None
        self.inertia = None

    def _initialize_centroids(self, X):
        """随机选择初始质心"""
        idx = np.random.choice(X.shape[0], size=self.n_clusters, replace=False)
        self.centroids = X[idx]
        
    def _assign_clusters(self, X):
        """为每个样本分配最近的质心"""
        distances = np.sqrt(((X - self.centroids[:, np.newaxis])**2).sum(axis=2))
        self.labels = np.argmin(distances, axis=0)

    def _update_centroids(self, X):
        """根据当前标签更新质心位置"""
        new_centroids = np.array([X[self.labels == i].mean(axis=0) for i in range(self.n_clusters)])
        return new_centroids

    def fit(self, X):
        """执行 KMeans 聚类"""
        self._initialize_centroids(X)
        
        for iteration in range(self.max_iter):
            old_centroids = self.centroids.copy()
            
            self._assign_clusters(X)
            self.centroids = self._update_centroids(X)
            
            # 检查收敛条件
            if np.all(np.abs(self.centroids - old_centroids) < self.tol):
                print(f"Converged after {iteration + 1} iterations.")
                break
        
        # 计算最终惯性
        self._compute_inertia(X)

    def _compute_inertia(self, X):
        """计算并存储惯性值"""
        inertia = 0
        for i in range(self.n_clusters):
            cluster_points = X[self.labels == i]
            if len(cluster_points) > 0:
                centroid = self.centroids[i]
                inertia += np.sum((cluster_points - centroid)**2)
        self.inertia = inertia

    def predict(self, X):
        """预测新样本所属的簇"""
        distances = np.sqrt(((X - self.centroids[:, np.newaxis])**2).sum(axis=2))
        return np.argmin(distances, axis=0)

# 测试代码
def main():
    # 生成一些模拟数据
    X, y_true = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

    # 创建并训练模型
    kmeans = SimpleKMeans(n_clusters=4)
    kmeans.fit(X)

    # 可视化结果
    plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels, s=50, cmap='viridis')
    plt.scatter(kmeans.centroids[:, 0], kmeans.centroids[:, 1], c='red', marker='x', s=200, linewidths=3)
    plt.title('KMeans Clustering Results')
    # plt.show()
    plt.savefig("./kmeans_result.png")

    print(f"Final Inertia: {kmeans.inertia}")


if __name__ == "__main__":
    # 生成(3,2)的整数数据集,并打印出来
    x = np.random.random((300, 2))
    y = np.random.random((4, 1, 2))
    z = x-y
    k = ((x-y)**2).sum(axis=2)
    print(x.shape,y.shape,z.shape,k.shape)
    

    

### KMeans算法实现代码示例 以下是使用不同编程环境下的KMeans算法实现代码: #### 使用PySpark实现KMeans算法 在Apache Spark中,可以通过`MLlib`库来实现KMeans算法。以下是一个完整的PySpark实现代码示例。 ```python from pyspark.ml.clustering import KMeans from pyspark.sql import SparkSession # 创建Spark会话 spark = SparkSession.builder.appName("KMeansExample").getOrCreate() # 加载数据集 data = spark.read.format("libsvm").load("path/to/dataset") # 训练KMeans模型 kmeans = KMeans().setK(2).setSeed(1) model = kmeans.fit(data) # 显示聚类中心 centers = model.clusterCenters() print("Cluster Centers: ") for center in centers: print(center) # 停止Spark会话 spark.stop() ``` 上述代码展示了如何通过PySpark加载数据并训练KMeans模型[^1]。 --- #### 使用R语言实现KMeans算法 下面是利用R语言中的`stats`包实现KMeans算法的一个完整代码示例。 ```r # 导入必要的库 library(stats) # 生成随机数据 set.seed(123) data <- matrix(rnorm(50 * 2), ncol = 2) # 执行KMeans聚类 kmeans_result <- kmeans(data, centers = 3, iter.max = 10, nstart = 25) # 输出聚类结果 print(kmeans_result$cluster) plot(data, col = kmeans_result$cluster, pch = 19) points(kmeans_result$centers, col = 1:3, pch = 8, cex = 2) ``` 此代码片段演示了如何创建一个简单的二维数据集,并对其进行KMeans聚类分析[^2]。 --- #### 使用Python实现KMeans算法 如果希望直接使用Python标准库或第三方库(如`scikit-learn`),可以参考以下代码示例。 ```python import numpy as np from sklearn.cluster import KMeans import matplotlib.pyplot as plt # 数据准备 X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]]) # 初始化KMeans模型 kmeans = KMeans(n_clusters=2, random_state=0).fit(X) # 获取聚类标签和中心点 labels = kmeans.labels_ centroids = kmeans.cluster_centers_ # 可视化结果 plt.scatter(X[:, 0], X[:, 1], c=labels, s=50, cmap='viridis') plt.scatter(centroids[:, 0], centroids[:, 1], c='red', s=200, alpha=0.75) plt.show() ``` 这段代码说明了如何借助`scikit-learn`快速构建KMeans模型并对数据进行可视化处理[^4]。 --- #### PySpark自定义初始化KMeans算法 对于更高级的需求,可以在PySpark中手动指定初始簇中心点。以下是一段示例代码。 ```python from pyspark.sql import SparkSession from pyspark.ml.feature import VectorAssembler from pyspark.ml.clustering import KMeans # 启动Spark会话 spark = SparkSession.builder.appName("CustomKMeans").getOrCreate() # 准备数据 data = [(1.0, Vectors.dense([0.0, 0.0])), (2.0, Vectors.dense([1.0, 1.0])), (3.0, Vectors.dense([9.0, 8.0]))] df = spark.createDataFrame(data, ["id", "features"]) # 自定义初始中心点 initial_centers = [[0.0, 0.0], [1.0, 1.0]] # 设置参数并训练模型 kmeans = KMeans(k=2, seed=1, initMode="custom", initialModel=None) kmeans.setInitialCenters(initial_centers) model = kmeans.fit(df.select("features")) # 查看聚类中心 print(model.clusterCenters()) ``` 该部分代码展示了一种灵活的方式来自定义初始簇中心[^5]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值