K-均值聚类及其在生物信息中的应用

本文介绍了一种常见的机器学习算法——K均值聚类,并提供了详细的步骤说明及其实现过程。对于初学者来说,《机器学习实战》是一本不错的入门书籍,书中P93页介绍了K均值聚类的基础概念、算法流程以及使用Python实现的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如果一点基础没有最好先拿起一本教材开始学,《机器学习实战》还不错,P93,书上有python源码和练习数据,非常适合新手。

k均值聚类

名词:簇;相似度算法

伪代码

创建K个点作为起始质心
当任意一个点的簇分配结果发生变化时:
    对数据集中的每个点:
        对每个质心:
            计算质心到数据点之间的距离
        将数据点分配到距离其最近的簇
    对每一个簇,计算簇中所有点的均值并将均值作为质心

目前的例子里聚类的对象都是数值点,这个在计算均值时比较容易理解,如果换到对人进行聚类(非数值),那怎么计算均值呢?

 

二分k均值聚类

 


数值型数据的聚类比较简单,尤其是坐标型的数据,那如何对非数值型数据进行聚类呢?

用Python实现文档聚类

 

在生物信息中的应用

 

 

待续~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值