第4章 Spark SQL概述

本文深入探讨SparkSQL的发展历程,从其前身Shark到现今的两个分支:hiveonspark与sparksql,揭示了SparkSQL不仅限于SQL功能,更提供了丰富的数据源访问与优化技术。通过对比SQLonHadoop常用框架如Hive、Impala、Presto、Drill,突出SparkSQL在数据处理与API灵活性上的优势。

4-1 课程目录

Spark SQL前世今生 SQL on Hadoop常用框架介绍

Spark SQL概述 Spark SQL愿景

Spark SQL架构

 

4-2 -Spark SQL前世今生

为什么使用SQL

1)事实上的标准 2)简单易用 3)受众面大

文本文件统计分析

id,name,age,city

1001,zhangsan,45,beijing

1002,kusu,39,shanghai

1003,wangwu,34,tianjin

........

table定义:person

column定义

id:int

name:string

age:int

city:string

hive: load data

sql:query...

Hive:类似于sql的hive QL语言,sql==>mapreduce

特点:mapreduce

改进:hive on tez,hive on spark, hive on mareduce

Shark:hive on spark==>shark(hive on spark)

shark推出:欢迎,基于spark,基于内存的列式存储,与hive能够兼容

缺点:hql ql的解析 、逻辑执行计划生成、执行计划的优化是依赖于hive的,仅仅只是把物理执行计划从mr作业替换成spark作业。

Shark终止以后,产生了2个分支

1)hive on spark

hive社区,源码在hive中

2)spark sql

spark社区,源码在spark中

支持多种数据源,多种优化技术,扩展性很好

 

4-3 -SQL on Hadoop常用框架介绍

1)hive

SQL==》mapreduce

metastore:元数据

sql:database,table,view

facebook

2)impala

cloudera:cdh(建议大家在生产环境使用hadoop系列版本)、cm

sql:自己的守护进程执行的,非mr

3)presto

facebook

京东

sql

4)drill

sql

访问:hdfs ,rebms,json,hbase,mangodb,s3,hive

5)spark sql

sql

dataframe/dataset api

metastore

访问:hdfs ,rebms,json,hbase,mangodb,s3,hive

 

4-4 -Spark SQL概述

 

官网:https://spark.apache.org/sql/

 

Spark SQL is Apache Spark's module for working with structured data.

 

 

Spark sql它不仅仅是访问或者操作sql功能,还提供了其他丰富的操作,外部数据源,优化

Spark SQl概述小结

1)spark sql 的应用并不局限于sql

2)访问hive,json,parquet等文件的数据

3)SQL只是spark SQL的一个功能而已

==》spark SQL这个名字并不恰当

4)spark SQL提供了SQL的api,dateframe和dataset的api

4-5 -Spark SQL愿景

 

 

4-6 -Spark SQL架构

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码上分享

创作不易,感谢各位看官

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值