Spark SQL概念学习系列之分布式SQL引擎

最新推荐文章于 2025-08-14 19:21:09 发布

转载最新推荐文章于 2025-08-14 19:21:09 发布 · 138 阅读

·

0

·

文章标签：

本文介绍如何将 SparkSQL 用作分布式查询引擎，包括启动 ThriftJDBC/ODBC 服务的方法及其配置，以及如何通过 beeline 和 SparkSQL CLI 进行测试和查询。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　不多说，直接上干货！

parkSQL作为分布式查询引擎：两种方式

　　除了在Spark程序里使用Spark SQL，我们也可以把Spark SQL当作一个分布式查询引擎来使用，有以下两种使用方式：

　　1.Thrift JDBC/ODBC服务

　　2.CLI

SparkSQL作为分布式查询引擎：Thrift JDBC/ODBC服务

　　Thrift JDBC/ODBC服务与Hive 1.2.1中的HiveServer2一致

　　启动JDBC/ODBC服务：

　　./sbin/start-thriftserver.sh

　　sbin/start-thriftserver.sh命令接收所有 bin/spark-submit 命令行参数，添加一个 --hiveconf 参数来指定Hive的属性。详细的参数说明请执行命令　　./sbin/start-thriftserver.sh --help 。

　　服务默认监听端口为localhost:10000。有两种方式修改默认监听端口：

　　修改环境变量：

　　　　export HIVE_SERVER2_THRIFT_PORT=

　　　　export HIVE_SERVER2_THRIFT_BIND_HOST=

　　　　./sbin/start-thriftserver.sh \

　　　　--master \

　　　　...

SparkSQL作为分布式查询引擎：Thrift JDBC/ODBC服务

　　Thrift JDBC/ODBC服务默认监听端口为localhost:10000。有两种方式修改默认监听端口：

　　修改环境变量：

　　　　export HIVE_SERVER2_THRIFT_PORT=

　　　　export HIVE_SERVER2_THRIFT_BIND_HOST=

　　　　./sbin/start-thriftserver.sh \

　　　　--master \

　　　　...

　　修改系统属性：

　　　　./sbin/start-thriftserver.sh \

　　　　--hiveconf hive.server2.thrift.port= \

　　　　--hiveconf hive.server2.thrift.bind.host= \

　　　　--master

　　　　...

　　SparkSQL作为分布式查询引擎： beeline

　　使用 beeline 来测试Thrift JDBC/ODBC服务：

　　　　./bin/beeline

　　连接到Thrift JDBC/ODBC服务：

　　　　beeline> !connect jdbc:hive2://localhost:10000

　　连接Hive需要拷贝hive-site.xml、core-site.xml、hdfs-site.xml到Spark 的./conf/ 目录。

　　SparkSQL作为分布式查询引擎： Spark SQL CLI

　　Spark SQL CLI是一个方便的工具，以本地模式运行Hive的metastore服务和执行从命令行输入查询语句。

　　Spark SQL CLI不能与Thrift JDBC server交互。

　　连接Hive需要拷贝hive-site.xml、core-site.xml、hdfs-site.xml到Spark 的./conf/ 目录。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。