spark DataFrame

最新推荐文章于 2024-10-13 21:07:53 发布

weixin_30295091

最新推荐文章于 2024-10-13 21:07:53 发布

阅读量111

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/dhName/p/10699790.html

本文对比了Spark中DataFrame与RDD的特性与使用场景。DataFrame基于RDD，提供了更丰富的结构信息和更高的计算性能，支持SQL查询，使大规模结构化数据处理更为简便。详细解析了DataFrame的逻辑查询计划和物理查询计划生成过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询。

　　从上面的图中可以看出DataFrame和RDD的区别。RDD是分布式的 Java对象的集合，比如，RDD[Person]是以Person为类型参数，但是，Person类的内部结构对于RDD而言却是不可知的。DataFrame是一种以RDD为基础的分布式数据集，也就是分布式的Row对象的集合（每个Row对象代表一行记录），提供了详细的结构信息，也就是我们经常说的模式（schema），Spark SQL可以清楚地知道该数据集中包含哪些列、每列的名称和类型。
　　和RDD一样，DataFrame的各种变换操作也采用惰性机制，只是记录了各种转换的逻辑转换路线图（是一个DAG图），不会发生真正的计算，这个DAG图相当于一个逻辑查询计划，最终，会被翻译成物理查询计划，生成RDD DAG，按照之前介绍的RDD DAG的执行方式去完成最终的计算得到结果。

转载于:https://www.cnblogs.com/dhName/p/10699790.html