机器学习中的分类与聚类技术详解
1. 机器学习基础概念
在机器学习领域,监督学习和无监督学习是两种重要的学习方式。监督学习使用带标签的数据进行训练,而无监督学习算法则通过模型拟合来发现无标签数据的内在结构。
回归和分类是监督学习中的两种重要任务,它们的区别在于目标变量的类型:回归的目标变量是连续的实数,而分类的目标变量是离散的类别。
在使用数据进行线性回归之前,有几个重要的步骤:
- 分析数据的分布和相似性。
- 对数据进行归一化和缩放。
- 将数据拆分为训练集和验证集。
均方根误差(RMSE)常用于评估线性回归模型的性能。线性回归模型学习到的参数可以帮助我们了解每个特征对目标变量的影响。在数据集中添加高阶多项式可以将线性回归应用于非线性问题,并在某些数据集上获得更好的结果。然而,增加模型的复杂度可能会导致过拟合,这就涉及到偏差 - 方差权衡,即我们只能选择高偏差或高方差,而不能两者兼得。岭回归和 Lasso 正则化有助于减少线性回归的过拟合问题,小批量随机梯度下降可以优化线性回归算法的性能,Spark 中的 LBFGS 优化器训练时间更短,性能也很好。
2. 分类与聚类任务简介
分类是监督机器学习算法的一个子集,其目标是将输入示例分类到几个类别中。例如,识别手写字母和根据患者症状识别疾病都是分类问题。聚类也是将输入数据分组到类(称为簇)中,但作为无监督学习方法,它没有正确标记的数据可供学习,必须自行确定簇的构成。聚类可用于根据客户习惯或特征对客户进行分组(客户细分)或识别新闻文章中的不同主题(文本分类)。
在 Spark 中,可用于分类任务的算法有逻辑回归、朴素贝叶
分类与聚类技术详解
超级会员免费看
订阅专栏 解锁全文
1185

被折叠的 条评论
为什么被折叠?



