43、深入探索 MLlib 与可复用 ML 管道:原理、实践与性能评估

深入探索 MLlib 与可复用 ML 管道:原理、实践与性能评估

1. MLlib 库概述

MLlib 是构建在 Spark 之上的可扩展机器学习库,它由两个不同的包组成:
- org.apache.spark.mllib :基于 RDD 的一些常见机器学习算法库,不过该包在未来版本中将被弃用。
- org.apache.spark.ml :利用数据集和数据框结构的机器学习算法库,支持任务管道和阶段,后续会详细介绍。

MLlib 包的主要组件包括:
- 分类算法 :如逻辑回归、朴素贝叶斯和支持向量机。
- 聚类和无监督学习技术 :例如 K - means。
- L1 和 L2 正则化
- 优化技术 :像梯度下降、逻辑梯度和随机梯度下降,以及 L - BFGS。
- 线性代数 :如奇异值分解。
- 数据生成器 :用于 K - means、逻辑回归和支持向量机。

机器学习字节码方便地包含在使用简单构建工具构建的 Spark 组装 JAR 文件中。

2. 创建 RDD

在 RDD 上执行转换和操作,因此第一步是创建一种机制,以便从时间序列生成 RDD。以下是创建 RDDSource 单例及其 convert 方法的代码

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值