Spark DataFrame

最新推荐文章于 2025-08-11 14:15:00 发布

AI算法攻城狮

最新推荐文章于 2025-08-11 14:15:00 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： # 深入浅出大数据

本文链接：https://blog.youkuaiyun.com/jxq0816/article/details/83795983

深入浅出大数据专栏收录该内容

57 篇文章 ¥99.90 ¥299.90

订阅专栏

Spark DataFrame是分布式数据集，类似关系数据库表，提供结构化数据查询能力。它通过catalyst优化器提升Spark查询性能，解决了Python RDD API的通信开销问题，为Python开发人员带来更快的抽象层。DataFrame在Scala DataFrame基础上用Python包装，减少了Python子进程与JVM的交互延迟。

DataFrame是一种不可变的分布式数据集，这种数据集被组织成指定的列，类似于关系数据库中的表。SchemaRDD作为Apache Spark 1.0版本中的实验性工作，它在Apache Spark 1.3版本中被命名为DataFrame。对于熟悉Python pandas DataFrame或者R DataFrame的读者，Spark DataFrame是一个近似的概念，即允许用户轻松地使用结构化数据（如数据表）。

通过在分布式数据集上施加结构，让Spark用户利用Spark SQL来查询结构化的数据或使用Spark表达式方法（而不是lambda）。

通过构建数据，使得Apache Spark引擎——具体来说就是catalyst优化器（catalyst Optimizer）——显著提高了Spark的查询性能。Spark早期的API中（即RDD），由于JVM和Py4J之间的通信开销，使用Python执行的查询会明显变慢。

使用Spark DataFrame，Python开发人员可以利用一个简单的并且潜在地加快速度的抽象层。最初Spark中的Python速度慢的一个主要原因源自于Python子进程和JVM之间的通信层。对于python DataFrame的用户，我们有一个在Scala DataFrame周围的Python包装器，Scala DataFrame避免了Python子进程/JVM的通信开销。