一、Spark SQL External DataSource简介
随着Spark1.2的发布,Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现。
这使得Spark SQL支持了更多的类型数据源,如json, parquet, avro, csv格式。只要我们愿意,我们可以开发出任意的外部数据源来连接到Spark SQL。之前大家说的支持HBASE,Cassandra都可以用外部数据源的方式来实现无缝集成。
(Ps: 关于External Datasource源码解析篇请移步至:Spark SQL之External DataSource外部数据源(二)源码分析 http://blog.youkuaiyun.com/oopsoom/article/details/42064075)
二、External DataSource
拿Spark1.2的json为例,它支持已经改为了实现了外部数据源的接口方式。所以除了先前我们操作json的API,又多了一种DDL创建外部数据源的方式。
parquetFile的操作方式也如下类似,就不一一列举了。
2.1 SQL方式 CREATE TEMPORARY TABLE USING OPTIONS
在Spark1.2之后,支持了一种CREATE TEMPORARY TABLE USING OPTIONS的DDL语法来创建外部数据源的表。

本文介绍了Spark SQL从1.2版本开始支持外部数据源的功能,包括如何使用SQL方式和API方式创建临时表,以json为例展示了创建和查询过程。Spark SQL提供了CREATE TEMPORARY TABLE USING OPTIONS的DDL语法,并开放了接口,便于与多种数据源如avro, csv, parquet, json等集成。"
19070961,1327051,Java获取文件及目录大小,"['Java', '文件操作', '目录操作', '文件系统']
最低0.47元/天 解锁文章
1169

被折叠的 条评论
为什么被折叠?



