大数据spark框架常用数据类型RDD与DataFrame的区别

最新推荐文章于 2025-10-15 14:26:06 发布

原创

最新推荐文章于 2025-10-15 14:26:06 发布 · 2.3k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #spark框架 #Hive #hive

大数据spark框架常用数据类型RDD与DataFrame的区别，在spark中，RDD、DataFrame是最常用的数据类型，在Apache Spark里面DF 优于RDD但也包含了RDD的特性，在使用的过程中分别介绍下两者的区别和各自的优势。

1、RDD是什么？

RDD（Resilient Distributed Datasets）提供了一种高度受限的共享内存模型。即RDD是只读的记录分区的集合，只能通过在其他RDD执行确定的转换操作（如map、join和group by）而创建，然而这些限制使得实现容错的开销很低。RDD仍然足以表示很多类型的计算，包括MapReduce和专用的迭代编程模型（如Pregel）等。

RDD五大特点：(必须的)可分区的: 每一个分区对应就是一个Task线程；(必须的)计算函数(对每个分区进行计算操作)；(必须的)存在依赖关系；(可选的)对于key-value数据存在分区计算函数；(可选的)移动数据不如移动计算(将计算程序运行在离数据越近越好)。

2、DataFrame是什么？

DataFrame是一种分布式的数据集，并且以列的方式组合的。类似于关系型数据库中的表。可以说是一个具有良好优化技术的关系表。DataFrame背后的思想是允许处理大量结构化数据。提供了一些抽象的操作，如select、filter、aggregation、plot。DataFrame包含带schema的行。schema是数据结构的说明。相当于具有schema的RDD。

DataFrame特性：支持从KB到PB级的数据量；支持多种数据格式和多种存储系统；通过Catalyst优化器进行先进的优化生成代码；通过Spark无缝集成主流大数据工具与基础设施；API支持Python、Java、Scala和R语言。

3、RDD