机器学习随记【day25-day26】

无监督学习中,聚类算法如K-means用于将未标记数据集分成紧密相关的子集。K-means通过迭代优化,使样本到所属簇的平均距离平方和最小化。算法涉及随机初始化聚类中心,可能遭遇局部最优,可通过多次运行选择最佳结果。确定聚类数量通常需要手动或使用肘部法则。

无监督学习

简单地说,监督学习是:我们有一个带标签的训练集,然后我们的目标是找到一条可以区分正样本和负样本的决策边界,即用假设函数拟合标签。无监督学习的数据没有标签

聚类算法

在聚类问题中,我们给定一组未加标签的数据集,希望找到一个算法能够自动地将这些数据分成有紧密关系的子集或簇。
应用
在这里插入图片描述
K-means算法
在这里插入图片描述

第一个for 循环:对于每个样本从第1个到K个最接近X^i 的聚类中心下标,赋给C ^i
第二个for 循环:移动聚类中心,即将聚类中心移动到簇的均值处,若某个中心没有点,通常删除这个点,或者随记初始化这个点。
在这里插入图片描述
K-means算法可以用于分离不佳的簇的问题,如下右图衣服尺码问题
在这里插入图片描述

优化目标

类似于监督学习中的代价函数,如图,其值等于样本到所属簇距离平方和的均值。优化目标即找到C使得J最小。
有时叫失真代价函数或K均值算法的失真

在这里插入图片描述
在这里插入图片描述
关于C最小化J
关于μ最小化J

随机初始化

选取k个点作为初始化聚类中心
在这里插入图片描述
而有些初始化会出现局部最优的情况
在这里插入图片描述
解决方法为多次随记初始化,选择J最小的聚类中心
在这里插入图片描述

选取聚类数量

最常见的办法还是手动选择
肘部法则(一般不要期望它能帮你解决问题)
在这里插入图片描述
有时可以基于某一标准评估算法对于后续目标的表现来决定k
在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值