机器学习:分类与聚类及图处理
1. 随机森林模型的精度
随机森林模型的精度达到了 0.99,这意味着它的错误率仅为 1%。相比决策树模型,其精度提高了 4%;相较于逻辑回归模型,精度更是提升了 10%。而且,使用随机森林模型时无需对算法进行调优。随机森林算法凭借其出色的性能和易用性,成为了最受欢迎的算法之一,并且在高维数据集上也能表现出色。
2. 聚类算法概述
聚类是一种无监督学习方法,其任务是基于某种相似性度量,将一组示例划分为多个组(簇)。与分类不同,聚类前示例没有预先标注的标签,聚类算法会自行学习标签。聚类算法有多种用途,例如:
- 数据分组,如客户细分或按相似习惯对客户进行分组。
- 图像分割,识别图像中的不同区域。
- 异常检测。
- 文本分类或识别一组文章中的主题。
- 搜索结果分组,如 www.yippy.com 搜索引擎会自动按类别对结果进行分组。
Spark 提供了以下几种聚类算法的实现:
- K - 均值聚类
- 高斯混合模型
- 幂迭代聚类
3. K - 均值聚类
K - 均值聚类是上述三种算法中最简单且最常用的一种。不过,它也存在一些缺点,比如在处理非球形簇和大小不均匀(密度或半径不均匀)的簇时会遇到困难,并且无法有效利用独热编码特征。它常与词频 - 逆文档频率(TF - IDF)特征向量化方法一起用于文本文档分类。
3.1 K - 均值聚类的工作原理
以下是 K - 均值聚类算法的工作流程:
1. 随机选择簇中心 :随
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



