1 SparkSQL概述
1.1 SparkSQL是什么
Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。
1.2 Hive and SparkSQL
Shark出现了两个分支:SparkSQL 和 Hive on Spark
-
SparkSQL 作为 Spark 生态的一员继续发展,而不再受限于 Hive,只是兼容 Hive;
-
Hive on Spark 是一个 Hive 的发展计划,该计划将 Spark 作为 Hive 的底层引擎之一,也就是 说,Hive 将不再受限于一个引擎,可以采用 Map-Reduce、Tez、Spark 等引擎。
对于开发人员来讲,SparkSQL 可以简化 RDD 的开发,提高开发效率,且执行效率非常快,所以实际工作中,基本上采用的就是 SparkSQL。Spark SQL 为了简化 RDD 的开发, 提高开发效率,提供了 2 个编程抽象,类似 Spark Core 中的 RDD
- DataFrame
- DataSet
1.3 SparkSQL 特点
1.3.1 易整合
无缝的整合了 SQL 查询和 Spark 编程
1.3.2 统一的数据访问
使用相同的方式连接不同的数据源
1.3.3 兼容 Hive
在已有的仓库上直接运行 SQL 或者 HiveQL

最低0.47元/天 解锁文章
1352

被折叠的 条评论
为什么被折叠?



