Stanford 机器学习笔记 Week8 Unsupervised Learning

最新推荐文章于 2020-02-08 19:44:11 发布

Baoli1008

最新推荐文章于 2020-02-08 19:44:11 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Baoli1008/article/details/50932736

机器学习专栏收录该内容

23 篇文章

订阅专栏

本文详细介绍了K-Means聚类算法的工作原理及步骤，包括如何选择初始聚类中心、避免局部最优解的策略以及如何确定合适的聚类数量。此外还探讨了算法的目标优化函数及其图形表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Clustering

K-Means Algorithm

一种经典的聚类算法，步骤很简单，分4步：

1.首先随机选择K个聚类中心
2.对于Training Set中的每个点i，计算离i最近的中心c(i)，将该点标记为c(i)
3.对于每个中心k，重新计算该位置为：所有标记为k的点的平均位置
4.如果所有中心的位置都不变，算法结束。否则回到步骤2

当在第2步时发现对于某中心没有属于的点，可以直接将该中心删除。如果必须维持K个中心的话，则可以重新随机选择该中心位置。

K-Means同样可以解决分离不明显的training set：
这里写图片描述
如右图所示。

Optimization Objective

之前的每个算法都有一个用来实施优化的公式（比如cost function），K－Means同样有，它的形式是：
这里写图片描述
这个函数又被称为distortion function。

如果画一个图像，x轴是k－means算法循环设置新中心的次数，y轴是J函数的值。如果k－means算法编写正确的话，这个图像应该是单调递减的。

Random Initialization

一种比较好的初始化方法是把初始的K个中心设置为随机K个不同的training set中的点。

但是当初始化的情况很差时，可能会陷入一个比较差的局部最优解，如图：
这里写图片描述
下面两个图就是陷入了局部最优解。

解决办法就是多次随机初始化，执行k－means后纪录distortion函数。
最终选择distortion函数值最小的分类方法作为答案。

Choosing the Number of Clusters

一种动态选择K值大小的方法是elbow method：
画出图像，x轴为K值大小，y轴为distortion值，这个值一定是单调递减的，如图：
这里写图片描述

如果图像是左边这种情况，那么K＝3那个位置就很像一个elbow，这个位置就是最佳的K值。
但是如果是右边图像的情况就不能明确的找出elbow，因此这不是一个能应用于所有情况的方法。

博客等级

码龄11年

293
原创

163
点赞

289
收藏

69
粉丝

关注

私信

热门文章

分类专栏

数据结构 63篇
水题 43篇
贪心 4篇
图论 31篇
搜索 32篇
数论 15篇
dp 31篇
模拟 17篇
普林斯顿大学MOOC algorithm 1 2篇
计算几何 11篇
python 8篇
linux 5篇
数学 28篇
字符串 16篇
MacOX
JAVA
汇编语言 4篇
minisat 2篇
C++ 4篇
MFC 1篇
Numpy 2篇
机器学习 23篇
Octave 6篇
机器学习实战 1篇
Github 1篇
pandas 2篇

展开全部收起

上一篇：: Stanford 机器学习笔记 Week7 Support Vector Machines

下一篇：: Stanford 机器学习笔记 Week8 Dimensionality Reduction

最新评论

补码运算中的溢出
做而论道_CS: 在计算机系统中，正负数值，一律采用补码表示和存储。数值、补码，直接转换即可，无须讨论原码反码。补码的运算，与一般二进制的运算相同。但是，补码运算时，不包括进位位。补码运算的结果，一旦超出表达范围，就是溢出。溢出的表现是：三个符号位，不符合正确的关系。判断是否溢出，看三个符号就行了，不用看原码反码。如：085h + 9ch 　= 1000 0101b + 1001 1100b 　= (1) 0010 0001b 两个负数相加，和，却是正数！不符合正常逻辑，这就是溢出了。又：0e7h + 0b3h 　= 1110 0111b + 1011 0011b 　= (1) 1001 1010b 两负数相加，和，依然是负数。无异常，这就没有溢出。溢出，与进位位，并无关系。与原码，更没有关系。归结起来，补码的溢出判断规则就一句话：同符号数相加，结果的符号位和两加数不同，既是溢出。完全正确。
Python 动态生成变量名
print_bookcase: 怎么用一个类创建多个对象，好几十个那种
Python 动态生成变量名
残存的影子: 文件分割
Python 动态生成变量名
这样啊812: 你调用什么情况需要调用这么多?
Python 动态生成变量名
残存的影子: 写的不明白啊,那我调用呢?还是要一个个写? 还要从1写到100?,那我要他有何用

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。