1. 什么是Spark SQL

Spark SQL是Apache Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
相比于Spark RDD API,Spark SQL包含了对结构化数据和在其上运算的更多信息,Spark SQL使用这些信息进行了额外的优化,使对结构化数据的操作更加高效和方便。
有多种方式去使用Spark SQL,包括SQL、DataFrames API和Datasets API。但无论是哪种API或者是编程语言,它们都是基于同样的执行引擎,因此你可以在不同的API之间随意切换,它们各有各的特点,看你喜欢哪种风格。
Spark 2.0开始,应用程序入口为SparkSession,加载不同数据源的数据,封装到DataFrame/Dataset集合数据结构中,使得编程更加简单,程序运行更加快速高效。

Spark SQL是Apache Spark用于处理结构化数据的模块,提供DataFrame和SQL接口。相较于RDD,Spark SQL对结构化数据的优化使其更高效。Spark 2.0引入SparkSession作为主要入口,兼容Hive并提供DataFrame和Dataset API。Spark SQL的发展历程包括Shark框架的演进,最终发展为独立的Catalyst引擎。SparkSession统一了SQLContext和HiveContext,简化了数据加载和处理。
订阅专栏 解锁全文
1095

被折叠的 条评论
为什么被折叠?



