Spark技术互动问答分享

最新推荐文章于 2025-08-16 21:35:51 发布

weixin_34037977

最新推荐文章于 2025-08-16 21:35:51 发布

阅读量101

点赞数

CC 4.0 BY-SA版权

文章标签： scala python 数据库

原文链接：https://my.oschina.net/u/1791057/blog/294575

本文探讨了SparkSQL与Shark的区别，指出Shark依赖Hive进行SQL解析，而SparkSQL采用Catalyst优化框架。文章还介绍了SparkSQL的新特性，如支持Scala中的SQL语法、Parquet文件操作及Hive元数据访问。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Q1:Spark SQL和Shark有啥区别？

Shark需要依赖于Hadoop上Hive去做SQL语句的解析和分析Spark，而SQL是主要依赖了Catalyst这个新的查询优化框架，在把SQL解析成逻辑执行计划之后，利用Catalyst包里的一些类和接口，执行了一些简单的执行计划优化，最后变成RDD的计算；
Databricks表示，Shark更多是对Hive的改造，替换了Hive的物理执行引擎，因此会有一个很快的速度。然而，不容忽视的是，Shark继承了大，量的Hive代码，因此给优化和维护带来了大量的麻烦。随着性能优化和先进分析整合的进一步加深，基于MapReduce设计的部分无疑成为了整个项目的瓶颈；
Spark新发布的Spark SQL组件让Spark对SQL有了别样于Shark基于Hive的支持：
其一，能在Scala代码里写SQL，支持简单的SQL语法检查，能把RDD指定为Table存储起来。此外支持部分SQL语法的DSL。
其二，支持Parquet文件的读写，且保留Schema。
其三，能在Scala代码里访问Hive元数据，能执行Hive语句，并且把结果取回作为RDD使用。