限时免费【matlab代码】层次聚类（Hierarchical Clustering）的代码例程-优快云博客

在这里插入图片描述

市面上很多商家用一些小玩意来卖钱，简单的例子却卖了很高的价格，甚至几十块的程序无法跑通、兼容性问题无法解决等。这里将一些小例子免费分享给大家。
如果觉得不错，欢迎订阅我的其他付费专栏：

MATLAB定位与滤波例程：https://blog.youkuaiyun.com/callmeup/category_12916974.html
MATLAB定位程序与详解：https://blog.youkuaiyun.com/callmeup/category_12794805.html
IMM交互式多模型滤波MATLAB实践：https://blog.youkuaiyun.com/callmeup/category_12816762.html

本文所述的程序实现了层次聚类（Hierarchical Clustering）的操作分析。二维数据集，并使用MATLAB中的linkage和cluster函数进行层次聚类分析。最终，程序会输出每个簇的大小、每个簇的聚类误差，并绘制树状图、聚类前的数据分布和聚类后的结果。

运行结果

层次结构示意图：
在这里插入图片描述
待聚类数据：

聚类后的结果：

命令行输出的结果：

MATLAB源代码

程序结构：
在这里插入图片描述
部分代码：

%% 层次聚类（Hierarchical Clustering）
% 2025-06-29/Ver1
clear; clc; close all;
rng(0); % 固定随机种子，确保结果可重现

%% 生成数据
% 数据点数
numPoints = 200;
% 生成示例数据
data1 = 1.1*randn(numPoints/4, 2) + [3, 3];
data2 = 1.2*randn(numPoints/4, 2) + [-3, 3];
data3 = randn(numPoints/4, 2) + [3, -3];

% 合并数据
data = [data1; data2; data3];
%% 计算
% 计算距离矩阵
distances = pdist(data);
% 进行层次聚类
Z = linkage(distances, 'ward'); % 使用Ward方法
% 进行聚类并指定簇的数量
T = cluster(Z, 'maxclust', 3); % 指定3个簇

完整代码下载链接：https://download.youkuaiyun.com/download/callmeup/91201771

程序详解

在这段程序中，层次聚类的核心原理涉及到距离计算、聚类过程和聚类误差的计算。以下是与本程序相关的算法要点和核心公式：

距离计算（Euclidean Distance）

层次聚类算法需要计算数据点之间的距离，这里使用的是欧氏距离。假设有两个数据点 $x = [x_1, x_2, ..., x_d]$ 和 $y = [y_1, y_2, ..., y_d]$ ，它们在 $d$ 维空间中的欧氏距离公式为：

$\sqrt{\sum_{i=1}^{d} (x_i - y_i)^2}$

该公式计算的是两个点之间的直线距离，常用于度量数据点之间的相似度。

层次聚类中的合并方法

在层次聚类中，簇的合并是根据某种准则进行的。常见的合并方法有：单链接（Single Linkage）、完全链接（Complete Linkage）、平均链接（Average Linkage）和Ward方法（Ward’s Method）。

Ward方法（用于本程序）：

Ward方法是一种最小化簇内方差的合并策略，它的核心思想是选择将合并后的簇的方差增量最小的两个簇进行合并。

假设有两个簇 $A$ 和 $B$ ，它们的总方差 $S_{total}$ 在合并前的方差为：

$S_{total} = S_A + S_B$

合并后的簇的方差 $S_{AB}$ 计算为：

$S_{AB} = \frac{n_A n_B}{n_A + n_B} \cdot ( \mu_A - \mu_B )^2$

其中：

$S_A$ 和 $S_B$ 分别是簇 $A$ 和 $B$ 的方差。
$n_A$ 和 $n_B$ 是簇 $A$ 和 $B$ 的数据点数量。
$\mu_A$ 和 $\mu_B$ 分别是簇 $A$ 和 $B$ 的均值（质心）。

合并过程选择的是使方差增量最小的簇对。合并后的簇会朝着这两个簇的均值中心移动。

其他合并方法：

单链接（Single Linkage）：两个簇的距离由它们之间最近的两个点之间的距离来决定。

$\min \{d(x, y) | x \in A, y \in B \}$
完全链接（Complete Linkage）：两个簇的距离由它们之间最远的两个点之间的距离来决定。

$\max \{d(x, y) | x \in A, y \in B \}$
平均链接（Average Linkage）：两个簇的距离是簇内所有点对的平均距离。

$\frac{1}{|A| \cdot |B|} \sum_{x \in A, y \in B} d(x, y)$