Apache Spark 数据处理与机器学习实战:从基础到应用
1. Python 和 R 与 Spark 的交互
Spark 主要用 Scala 实现,同时提供了 Java API 以方便 Java 开发者更自然地使用 Spark。此外,还有 Python API(PySpark)和 R API(SparkR)。基于 Scala 或 Java 实现的 Spark 程序在作为驱动程序的同一个 JVM 上运行,而 PySpark 或 SparkR 程序分别在 Python 和 R 进程中运行,SparkSession 最终处于不同的进程。一般情况下,这不会影响性能,除非使用 Python 或 R 中定义的函数。
当进行分词、计数和合并计数等操作时,调用 Python 代码处理数据,JVM 进程会将数据序列化并发送到 Python 进程,Python 进程对数据进行反序列化、处理、序列化,再发送回 JVM 进行反序列化,这会增加额外的工作。因此,使用 PySpark 或 SparkR 时,应尽可能使用 Spark 内部函数。
2. Spark SQL 和 Spark MLlib 概述
自 Spark 2 发布以来,在 Spark 中处理数据的主要方式是通过 Dataset。Dataset[T] 允许将分布式数据视为表格,类型参数 T 用于表示表格的行。有一种特殊的 Dataset,其行类型为 Row,无需定义新类即可处理表格数据,但会损失一些类型安全性。在 PySpark 中,DataFrame 是处理数据的最佳方式。
Dataset 和 DataFrame 在 Spark SQL 模块中定义,其最大的优势之一是能够使用 SQL 表达许多操
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



