笔记:Spark上的机器学习

本文概要介绍了机器学习的三大类别:有监督学习、无监督学习和半监督学习,及其常用的算法如回归、聚类、决策树等。同时,详细探讨了机器学习在不同场景下的应用,包括神经网络的训练、关联规则学习、聚类算法等,并强调了Spark在处理迭代计算过程中的高效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习分类:

1)有监督学习

常用算法:回归分析和统计分类

应用场景:训练神经网络(判断网络的错误,然后调整网络去适应它)与决策树(用于判断那些属性提供了最多的信息)

2)无监督学习

应用场景:关联规则的学习和聚类

常用算法:Apriori和k-Means算法

3)半监督学习

····

一些机器学习算法:

1)回归算法

试图采用对误差的衡量来探索变量之间的关系

最小二乘法,逻辑回归,逐步式回归,多元自适应回归样条···

2)基于实例的算法

新数据与样本数据作对比来寻找最佳匹配。

KNN,LVQ,SOM

3)正则化方法

4)决策树学习

根据数据的属性采用树状结构简历决策模型,通常用来解决分类和回归问题。

分类及回归树····

5)贝叶斯学习

基于贝叶斯定理,用于解决分类和回归问题。

朴素贝叶斯算法,····

6)基于核的算法

把输入数据映射到一个高阶的向量空间,有些分类或者回归问题更能很好的解决。

SVM,····

7)聚类算法

按照中心点或者分层的方式对输入数据进行归并。

k-means,···

8)关联规则学习

通过寻找最能够解释数据变量之间关系的规则,来找出大量的多元数据集中有用的关联规则。

Apriori算法

SPARK MLlib

特性:

1)机器学习算法一般有很多迭代计算的过程,在多次迭代后获得足够小的误差或者足够收敛才会停止。spark基于内存的计算模型擅长做迭代计算。

2)spark的通信机制:Akka和Netty,通信效率高。

3)基于RDD构建起来的Spark MLlib和SparkSQL,Spark Straming,GraphX等子框架无缝的共享数据和操作

Spark将机器学习算法都分成了两个模块:

训练模块:通过训练样本输出模型参数

预测模块:利用模型参数初始化,预测测试样本,输出并测值


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值