一、简述
K均值聚类:
1.在数据集中随机选择K个数据用来做K个聚类的初始中心
2.各个数据根据他们到每个聚类中心的距离选择中心最近的聚类分配到其中。
3.重新计算各个聚类中的所有数据的平均值,并将得到的结果作为新的中心;
4.重复上述操作直至聚类中心不再发生变化或达到最大迭代次数,停止迭代。
二、代码
clear
clc
%初始化数据
point = randi([-50, 50], 100, 3);
%计算数据个数
n = size(point, 1);
%聚类个数
k = 5;
%维度
q = size(point, 2);
%最大迭代次数
G = 100;
%记录各类的中心
class_center = zeros(k, q);
%记录各类的数据个数
class_count = zeros(1, k);
%记录各点的类名
class_point = zeros(n, 1);
%记录上一代各类的中心
pre_class_center = zeros(k, q);
%初始化各类的第一项数据与中心坐标
index = randperm(n, k);
for i = 1 : k
class_center(i, :) = point(index(i), :);
class_point(index(i)) = i;
end
%迭代
for iter = 1 : G
%遍历所有数据
for i = 1 : n
dis = zeros(1, k);
for j = 1 : k
for m = 1 : q
%计算该点到各类中心的距离
dis(j) = dis(j) + (point(i, m) - class_center(j, m)) ^ 2;
end
end
%找到与该点距离最小的类的位置
[~, min_dis_index] = min(dis);
%将该点归类
class_point(i) = min_dis_index;
end
%更新中心坐标
for j = 1 : k
class_index = find(class_point == j);
class_center(j, :) = mean(point(class_index, :), 1);
%将记录该类数据个数的变量
class_count(j) = size(class_index, 1);
end
%比较更新前后中心是否变化
if pre_class_center == class_center
break;
end
pre_class_center = class_center;
end
%初始化cell类型数组计入颜色和形状,在绘图时对不同的类绘出不同的颜色和形状
color_ = {'r', 'g', 'b', 'k', 'c'};
shape_ = {'o' , '+' , '*' , 'd' , 'x'};
%遍历每个类绘制类内的各点
for j = 1 : k
class_index = find(class_point == j);
scatter3(point(class_index, 1), point(class_index, 2), point(class_index, 3), [color_{j}, shape_{j}]);
hold on
end
%绘制各类的中心
scatter3(class_center(:, 1), class_center(:, 2), class_center(:, 3), 80, 'mp')
三、运行结果
注:粉色五角星为各类的中心。