集体智慧总结和使用范围归纳（四）

最新推荐文章于 2022-05-17 19:24:09 发布

Zhang_Yu_Joseph

最新推荐文章于 2022-05-17 19:24:09 发布

阅读量740

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：分级聚类 k-means 多维缩放非负矩阵因式分解优化算法

本文链接：https://blog.youkuaiyun.com/Zhang_Yu_Joseph/article/details/49903905

机器学习专栏收录该内容

5 篇文章

订阅专栏

本文介绍了两种非监督式机器学习方法——聚类算法，包括分集聚类和k-均值聚类；以及优化方法，包括退火法和遗传算法。讨论了它们在物联网和工业生产中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

聚类

聚类是典型的非监督式机器学习方法，他们不需要训练数据，当然也不能做预测，但是他们可以对已有数据集进行分类。

这里介绍分集聚类和k-均值聚类（k-means）

分集聚类

她的工作过程就是先把最近的两个点（A and D）合并为A‘，再将A'与C进行合并，以及B和E进行合并，最终形成两个不能合并的点’，而已经合并的点是一种树状图关系。

最常见的应用就是不同性质文章的分类，最后比如两会类的文章和亲子类的文章肯定是两个分类。

k-均值分类（k-means）

与分集聚类最大的不同是可以在一开始指定需要输出的群组数量，而且过程是：如需要3个群组，那么首先会随机的在平面上“撒”3个点，接着这3个点会像磁铁一样，“吸”周围的点，而由于作用力与反作用力，她在吸别人的同时也会移动，最终会形成一个稳定的状态，输出3个群组。

在实际情况中，常常是两者混用：先用k-means分几个组后，再用分集聚类对这几个组分类。

在物联网中的应用

当今比较火爆的工业4.0中，有一个重要的改进就是从以前死板的传统工业进化到可用户可定制产品，那么，来自用户的单子当然是千奇百怪，然而，使用聚类就可知道用户的需求大概分为哪几类，然后再生产少量的几种“个性”产品就能满足大部分用户的需求。

多维缩放

上面的聚类看来容易，但是仔细看发现都是二维平面的数据，最多到三维，如果数据是多维的（大于4）怎么办？多维缩放就是来解决这个问题的。一般是缩放至2为。过程是：比如一组事件有多个特征，那么我们根据计算欧氏距离的方法，得到这些特征的相对距离，再把他们随即的投射到二维平面上，通过迭代的方法调整这些时间点之间的距离，最终得到一个稳定的状态，之后就可以用聚类的方法对这些点进行处理了。

非负矩阵因式分解

也是一种非监督方法。因为他的主要作用是找到数据集的特征，而不是预测。方法是将源数据矩阵变化为两个矩阵的乘积，一个是特征对源数据对象们的权重矩阵，另一个是对象观测值对特征的权重。

比如我们采集了工厂在一年内的生产数据作为源数据集（横轴产品，纵轴时间：天），之后找出特征矩阵后，就会发现某个特征对某个产品的权重非常大，再找到对这个特征权重非常大的那天，回忆一下，突然发现那天正好有个XX事件，才知道原来XX事件对这个产品的影响是非常大的呢！

优化

优化的本质是要设计成本函数，并找到最小成本的方法。假设一个成本函数的可视化如下：

最笨的办法当然是计算每个点的高度，并找出最小的成本。但是在大量数据的应用中，这种方法是不现实的。

那么进化一下，假设我先随机降落在这个平面的任意点上，之后环顾四周，找到最小的方向，走过去，再环顾四周找最小的方法，直到四周都比现在所处的点大。但是可以发现平面上其实是有许多的局部最小点，这种方法是不科学的。

那么再进化一下：

退火法

这时由金属的冷却得来的灵感。具体来讲，在算法开始时会规定一个温度，并会慢慢下降直到0。与上面类似，一开始也是随机降落到平面上的一点，但是之后不是找最小的方向，而是随机一个方向，如果比当前值小，那么就会“走”过去，如果比当前值大，那么会再引入温度值进行判断是否可以走过去。直到温度降为0，就会寻找到最小值的点。显然，在一开始温度较高时，算法容忍向高处走的可能性就越大，随着温度下降，就越来越小。