基于BinaryVector优化的KModes算法

本文介绍了如何针对二进制向量(Binary Vector)优化KModes聚类算法。KModes利用汉明距离计算向量间的距离,并通过统计每个特征列中出现频率最高的类别来更新质心。文章展示了如何将16维的0,1数组压缩为两个uint8_t整数,以及如何通过位操作计算汉明距离。对于优化,提出了使用256*8的二维数组快速查找压缩向量对应的0,1数组,从而提高计算效率。详细实现可参考GitHub项目代码。" 129651377,17719877,JAVA SSM音乐网站毕业设计详解,"['JAVA', '课程设计', 'mybatis']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里将记录一下,如何快速的开发一个针对binary vector进行优化的KModes聚类算法。

首先,KModes算法本身和KMeans的过程是一致的,差别在于distance function和质心的更新方法上。

KModes采用Hamming Distance计算向量间的距离,质心的更新方法则是统计每个column中,出现频数最多的类别。
假设一共有5个向量:
[0, 1, 1, 0, 0]
[0, 0, 0, 1, 1]
[0, 0, 0 1, 0]
[1, 1, 1, 0, 0]
[1, 1, 0, 0, 0]
可以看到1,4,5是一类,2,3是一类。
更新的时候,假设1,2,3被划分到了一起,那么他们的质心计算过程就是:

  • 统计每个column的值分布,[ {0:3, 1:0}, {0:2, 1:1}, {0:2, 1:1}, {0:1, 1:2}, {0:2, 1:1} ]
  • 每个column下都保留最大值,[0, 0, 0, 1, 0]

接下来谈谈如何优化,binary vector一个重要的优化点就是数据表征,比如一个16维的0,1数组,可以用两个uint8_t的整数来压缩表示:

In: import numpy as np
In: np.packbits([0, 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值