基本指标对比
SparkSQL | Hive | |
---|---|---|
生态系统 | 是Spark中的一部分,很重要的一部分。所以也可以说是Hadoop的一部分 | 是Hadoop的一部分 |
存储 | Spark支持存储在HDFS或S3 | 使用HDFS |
性能 | Spark计算优先使用内存,将中间结果落内存,计算更快 | 可以说是在MapReduce上封装了一层,底层用的MapReduce,而MapReduce不会将中间结果落内存,所以相对Spark会慢一些 |
查询语言 | 标准的SQL | HiveSQL,有针对Hive的优化和一些函数 |
社区活跃度 | Spark近一年每周50-100个commit | Hive近一年每周5-10个commit |
关键指标对比
操作 | Spark SQL 表 | Hive 表 | 性能差异原因 |
---|---|---|---|
插入(Insert) | 不直接支持,通常通过DataFrame写入或使用 INSERT INTO 语句 | 直接支持,使用 LOAD DATA 或 INSERT INTO 语句 | Hive 提供了直接的表加载和插入机制,而 Spa |