Spark视频王家林大神 第7课: Spark机器学习内幕剖析

本节内容探讨Spark机器学习的内幕,解释Spark 2.x中机器学习的本质是基于函数库的RDD/DataFrame/DataSet,并强调DataFrame-based API在优化和性能上的优势。介绍了Spark MLlib从RDD-based API逐渐过渡到DataFrame-based API的过程,以及如何基于Spark 2.x进行机器学习学习路径。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark视频王家林大神 第7课: Spark机器学习内幕剖析

本节讲解Spark机器学习内幕,Spark机器学习的本质是什么,Spark机器学习的内部构成到底是什么?基于Spark 2.x版本,怎么学习机器学习?这是所有做机器学习的同学都非常关注的。Spark 2.x版本的发布,标志着以Spark为核心的大数据统一计算时代真正的到来。

Spark机器学习的本质是什么?机器学习是数据+算法(迭代),从老师的角度而言,Spark机器学习就是Spark平台之上的函数库,这是一个非常重要的观点。将Spark机器学习看作普通的函数,很多函数构成函数库,机器学习mllib库函数有自己的一套逻辑,以机器学习的方式,机器学习比较特殊,具有迭代性,或基于迭代进行改进等,函数有自己内部的逻辑。这些函数基于RDD/DataFrame/DataSet,以后将全面转向DataSet。

Spark机器学习数据来源,在Spark的最底层肯定是RDD封装的,这个和Spark具体是什么版本没有任何关系,版本的发展只不过提供了更多的更高层的API而已。例如DataFrame/DataSet,而之所以有DataFrame/DataSet等,一般情况下是为了使用统一的优化引擎。在统一的优化引擎基础上,只要优化引擎,引擎上面的所有的子框架都会受益。抽象程度越高,优化算法和空间就越大(因此越底层越高效的观点,显然是不完善的。)

Spark机器学习的数据来源主要基于RDD。看一下Spark机器学习的官网

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型与Agent智能体

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值