SparkSQL与Hive深入解析-优快云博客

本文链接：https://blog.youkuaiyun.com/SmallIPPig/article/details/84201745

本文详细介绍了Hive和SparkSQL的区别与联系，包括它们的表类型、依赖关系及性能对比。探讨了Shark作为过渡角色的作用，以及SparkSQL如何克服Hive限制，支持原生RDD查询和Scala中SQL语句的编写。同时，文章对比了RDD与DataFrame在数据处理上的优劣。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.Hive：

表的类型：内部表、外部表、临时表、分区表（动态、静态）分桶表

创建各种表的关键字：
外部表：external
临时表：TEMPORARY
分区表：partitioned by (dt string)
分桶表：CLUSTERED BY

2.SparkSQL:

Hive依赖于HDFS和MR，而SparkSQL依赖有HDFS和Spark core

2.1.Shark：

Shark是SparkSQL的最开始的一个版本，后来改名为SparkSQL。

Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎，由于底层的计算采用了Spark，性能比MR的Hive普遍快2倍。（Spark如果基于磁盘的话，比MR快10倍以上，基于内存的话，快100倍以上）当数据全部load在内存的话，将快10倍以上，因此Shark可以作为交互式查询应用服务来使用。

除了基于Spark的特性外，Shark是完全兼容Hive的语法，表结构以及UDF函数等，已有的HiveSql可以直接进行迁移至Shark上

Shark底层依赖于Hive的解析器，查询优化器，但正是由于SHark的整体设计架构对Hive的依赖性太强，难以支持其长远发展，比如不能和Spark的其他组件进行很好的集成，无法满足Spark的一栈式解决大数据处理的需求

当有一个sql语句传给Shark,它底层的解析器，查询优化器把sql解析成一个个Spark任务，底层的解析器，优化器都是HIive的

2.2Spark官网：http://spark.apache.org/

2.2.1官网信息

速度：
在这里插入图片描述
时间对比图：

Spark生态圈：
2.2.2运行过程：

SparkSQL:
优点：底层的解析器，优化器都是自己的。

2.2.3产生关系：

Hive是Shark的前身，Shark是SparkSQL的前身

相对于Shark，SparkSQL有什么优势呢？

1.SparkSQL产生的根本原因，其完全脱离了Hive的限制

2.SparkSQL支持查询原生的RDD，这点就极为关键了。RDD是Spark平台的核心概念，是Spark能够高效的处理大数据的各种场景的基础

3.能够在Scala中写SQL语句。支持简单的SQL语法检查，能够在Scala中写Hive语句访问Hive数据，并将结果取回作为RDD使用

2.2.4最近新出的组合名称：

SparkSQL on Hive:(常用)
Hive只是作为了存储的角色
SparkSQL作为计算的角色

Hive on Spark:
Hive承担了一部分计算（解析SQL，优化SQL…）的和存储
Spark作为了执行引擎的角色

3.DataFrame:

3.1DataFrame介绍：

与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还掌握数据的结构信息，即schema。同时，与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map）。从API易用性的角度上看，DataFrame API提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低

在SparkSQL中，一切计算都基于DataFrame.。DataFrame底层封装的是 RDD，SparkSQL底层封装的是SparkCore.DataFrame可以理解为二维表

3.2RDD vs DataFrame
在这里插入图片描述
对于一个RDD，想要拿到每个Person对象的Name值：需要一条条的遍历，把对象放在内存中，再去解析拿到想到的属性，会产生冗余数据（还有其他属性的存在，极大的占用了内存）
而对于DataFrame，是有行有列的。当想拿到哪个属性时，直接拿出相应的列即可。