Spark SQL的分布式SQL引擎

最新推荐文章于 2023-02-20 11:45:00 发布

原创

最新推荐文章于 2023-02-20 11:45:00 发布 · 682 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Spark SQL

本文介绍了Spark SQL作为分布式查询引擎的使用，包括通过Thrift JDBC/ODBC server进行编程交互和使用Spark SQL CLI执行SQL查询。Thrift JDBC/ODBC server允许通过Java JDBC或beeline工具连接，启动服务并在localhost:10000监听，支持HTTP模式。Spark SQL CLI则提供命令行工具执行本地Hive Metastore服务的查询。

一、简介

二、使用Thrift JDBC/ODBC server

2.1概述

2.2使用案例

三、使用Spark SQL cli

一、简介

Spark SQL可以使用其JDBC / ODBC或命令行界面充当分布式查询引擎。在此模式下，终端用户或应用程序可以直接与Spark SQL交互以运行SQL查询，而无需编写任何代码。主要有两种方式，一种是Thrift JDBC/ODBC,另一种是Spark SQL命令行终端。

二、使用Thrift JDBC/ODBC server

2.1概述

Spark SQL的Thrift JDBC/ODBC server是基于Hive 1.2.1的HiveServer2实现的(注意：在spark1.5.1及其之后的版本是基于Hive1.2.1的，在spark1.5.0和其之前的版本中是基于Hive0.13的)。这个服务启动之后，最主要的功能就是可以让我们通过
Java JDBC来以编程的方式调用Spark SQL。此外，在启动该服务之后，可以通过Spark或Hive 1.2.1自带的beeline工具来进行测试。

执行Spark的sbin目录下的start-thriftserver.sh命令，即可启动JDBC/ODBC server。start-thriftserver.sh命令可以接收所有spark-submit命令可以接收的参数，额外增加的一个参数是--hiveconf，可以用于指定一些Hive的配置属性。可以通过行./sbin/start-thriftserver.sh --help来查看所有可用参数的列表。默认情况下，启动的服务会在localhost:10000地址上监听请求。

最低0.47元/天解锁文章