Spark SQL 与 HIVE异同

最新推荐文章于 2025-01-08 23:04:53 发布

原创最新推荐文章于 2025-01-08 23:04:53 发布 · 1.5k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#hive #spark #大数据

这篇博客对比了SparkSQL和HIVESQL的相同点和不同点。两者都是分布式计算引擎，能处理大规模数据，并能在Yarn上运行。然而，SparkSQL基于内存计算，提供更快的速度，而HIVESQL依赖磁盘计算。SparkSQL不包含元数据管理服务，而HIVESQL有metastore。此外，SparkSQL支持SQL和编程，而HIVESQL仅支持SQL。

相同点:

1- 都是分布式计算的引擎
2- 都可以处理大规模的数据
3- 都可以简历Yarn集群之上运行

不同点

1- Spark SQL是基于内存计算, 而 HIVE SQL是基于磁盘进行计算的
2- Spark SQL没有元数据管理服务(自己维护), 而HIVE SQL是有metastore的元数据管理服务的
3- Spark SQL底层执行Spark RDD程序, 而 HIVE SQL底层执行是MR
4- Spark SQL可以编写SQL 也可以编写代码, 但是HIVE SQL 仅能编写SQL语句