走进Spark SQL

从Shark说起:

Shark即Hive on Spark,为了实现与Hive兼容,Shark在HiveQL方面重用了Hive中HiveQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MapReduce作业替换成了Spark作业,通过Hive的HiveQL解析,把HiveQL翻译成Spark上的RDD操作。Shark的出现,使得SQL-on-Hadoop的性能比Hive有了10-100倍的提高。

但是,shark的设计导致了两个问题:

①.执行计划优化完全依赖于hive,不方便添加新的悠哈策略。

②.因为Spark是线程级并行,而MapReduce是进程级并行,因此,Spark在兼容hive的实现上存在线程安全问题,导致Shark不得不使用另外一套独立维护的打了补丁的hive源码分支。

也因此发展出两个直线:Spark SQL和hive on Spark。

 

Spark SQL是Spark的计算模块之一,它和Spark的基础模块RDD不一样,是专门用于处理结构化数据的。Spark SQL兼容Hive,拥有比hive更好的性能,目前已支持TPC-DS基准,是大数据背景下优良的数据仓库解决方案之一。Spark SQL提供

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值