6、Apache Spark 数据处理与机器学习实战:从基础到应用

Apache Spark 数据处理与机器学习实战:从基础到应用

1. Python 和 R 与 Spark 的交互

Spark 主要用 Scala 实现,同时提供了 Java API 以方便 Java 开发者更自然地使用 Spark。此外,还有 Python API(PySpark)和 R API(SparkR)。基于 Scala 或 Java 实现的 Spark 程序在作为驱动程序的同一个 JVM 上运行,而 PySpark 或 SparkR 程序分别在 Python 和 R 进程中运行,SparkSession 最终处于不同的进程。一般情况下,这不会影响性能,除非使用 Python 或 R 中定义的函数。

当进行分词、计数和合并计数等操作时,调用 Python 代码处理数据,JVM 进程会将数据序列化并发送到 Python 进程,Python 进程对数据进行反序列化、处理、序列化,再发送回 JVM 进行反序列化,这会增加额外的工作。因此,使用 PySpark 或 SparkR 时,应尽可能使用 Spark 内部函数。

2. Spark SQL 和 Spark MLlib 概述

自 Spark 2 发布以来,在 Spark 中处理数据的主要方式是通过 Dataset。Dataset[T] 允许将分布式数据视为表格,类型参数 T 用于表示表格的行。有一种特殊的 Dataset,其行类型为 Row,无需定义新类即可处理表格数据,但会损失一些类型安全性。在 PySpark 中,DataFrame 是处理数据的最佳方式。

Dataset 和 DataFrame 在 Spark SQL 模块中定义,其最大的优势之一是能够使用 SQL 表达许多操

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值