多元统计分析最短距离法_多元统计分析-聚类分析

本文详细介绍了聚类分析的过程,包括最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法等不同距离计算方法,特别强调了离差平方和法的实用性。讨论了各种方法的特性,如单调性和空间的浓缩与扩张。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

聚类分析是一个迭代的过程

对于n个p维数据,我们最开始将他们分为n组

每次迭代将距离最近的两组合并成一组

若给出需要聚成k类,则迭代到k类是,停止

计算初始情况的距离矩阵一般用马氏距离或欧式距离

个人认为考试只考 1,2

比较有用的方法是3,4,5,8

最喜欢第8种

距离的计算

欧式距离

距离的二范数

马氏距离

对于X1, X2  均属于N(u, Σ)

X1,X2的距离为   (X1 - X2) / sqrt(Σ)

那么不同的聚类方法其实也就是不同的计算类间距离的方法

1.最短距离法

计算两组间距离时,将两组间距离最短的元素作为两组间的距离

2.最长距离法

将两组间最长的距离作为两组间的距离

3.中间距离法

将Gp,Gq合并成为Gr

计算Gr与Gk的距离时使用如下公式

D2kr = 1/2 * D2kp + 1/2 * D2kq + β * D2pq

β是提前给定的超参数-0.25<=β<=0

4.重心法

每一组都可以看成一组多为空间中点的集合,计算组间距离时,可使用这两组点的重心之间的距离作为类间距离

若使用的是欧氏距离

那么有如下计算公式

D2kr = np/nr * D2kp + nq/nr * D2kq - (np*nq / nr*nr ) * D2pq

5.类平均法

两组之间的距离 = 组间每两个样本距离平方的平均值开根号

表达式为D2kr = np/nr * D2kp &#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值