目录
一、简介
Spark SQL可以使用其JDBC / ODBC或命令行界面充当分布式查询引擎。在此模式下,终端用户或应用程序可以直接与Spark SQL交互以运行SQL查询,而无需编写任何代码。主要有两种方式,一种是Thrift JDBC/ODBC,另一种是Spark SQL命令行终端。
二、使用Thrift JDBC/ODBC server
2.1概述
Spark SQL的Thrift JDBC/ODBC server是基于Hive 1.2.1的HiveServer2实现的(注意:在spark1.5.1及其之后的版本是基于Hive1.2.1的,在spark1.5.0和其之前的版本中是基于Hive0.13的)。这个服务启动之后,最主要的功能就是可以让我们通过
Java JDBC来以编程的方式调用Spark SQL。此外,在启动该服务之后,可以通过Spark或Hive 1.2.1自带的beeline工具来进行测试。
执行Spark的sbin目录下的start-thriftserver.sh命令,即可启动JDBC/ODBC server。start-thriftserver.sh命令可以接收所有spark-submit命令可以接收的参数,额外增加的一个参数是--hiveconf,可以用于指定一些Hive的配置属性。可以通过行./sbin/start-thriftserver.sh --help来查看所有可用参数的列表。默认情况下,启动的服务会在localhost:10000地址上监听请求。

本文介绍了Spark SQL作为分布式查询引擎的使用,包括通过Thrift JDBC/ODBC server进行编程交互和使用Spark SQL CLI执行SQL查询。Thrift JDBC/ODBC server允许通过Java JDBC或beeline工具连接,启动服务并在localhost:10000监听,支持HTTP模式。Spark SQL CLI则提供命令行工具执行本地Hive Metastore服务的查询。
最低0.47元/天 解锁文章
476

被折叠的 条评论
为什么被折叠?



