Hive On Spark hiveserver2方式使用

最新推荐文章于 2024-06-20 16:36:33 发布

转载最新推荐文章于 2024-06-20 16:36:33 发布 · 427 阅读

文章标签：

#大数据 #java

本文介绍如何启动HiveServer2并使用Beeline进行连接，特别指出每个Beeline对应一个SparkContext，在SparkThriftServer中多个Beeline共享一个SparkContext的特点，并提到首次执行SQL语句可能会较慢。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

启动hiveserver2：

hiveserver2 --hiveconf hive.execution.engine=spark spark.master=yarn

使用beeline连接hiveserver2：

beeline -u jdbc:hive2://hadoop000:10000 -n spark

注意：每个beeline对应一个SparkContext，而在Spark thriftserver中，多个beeline共享一个SparkContext

可以通过YARN监控页面观察到：分别执行了两个beeline

在刚启动hive时，执行第一个sql语句会比较慢。

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34124577

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Hive On Spark报错：Remote Spark Driver - HiveServer2 connection has been closed

光于前裕于后的博客

01-26

4588

执行报错日志为： Failed to monitor Job[-1] with exception ‘java.lang.IllegalStateException(Connection to remote Spark driver was lost)’ Last known state = SENT FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Unable to se

SparkSQL整合Hive与启动HiveServer2

weixin_45484707的博客

10-05

2028

一、Spark整合Hive： ①SparkSQL兼容Hive的源数据库、兼容Hive的自定义函数、兼容Hive的序列化和反序列化。 ②可以用SparkSQL替代Hive或者将Hive的引擎由MapReduce换成SparkSQL。 ③启动SparkSQL必须是client模式，不能是cluster模式；启动SparkSQL时可以指定启动模式，错误示例如下： bin/spark-sql --deploy-mode cluster --master spark://linux02:7077 --driver-

参与评论您还未登录，请先登录后发表或查看评论

Hive on Spark 项目环境配置及优化

BrightMoons的博客

10-28

1212

背景介绍背景 Hive on Spark是由Cloudera发起，由Intel、MapR等公司共同参与的开源项目，其目的是把Spark作为Hive的一个计算引擎，将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目，可以提高Hive查询的性能，同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择，从而进一步提高Hive和Spark的普及率。简介 Hive on Spark是从Hive on MapReduce演进而来，Hive的整体解决方案很不错，但是从查询提交到结

hive on spark (spark2.0.0 hive2.3.3)

weixin_30586085的博客

09-07

322

hive on spark真的很折腾人啊!!!!!!! 一.软件准备阶段 maven3.3.9 spark2.0.0 hive2.3.3 hadoop2.7.6 二.下载源码spark2.0.0,编译下载地址:http://archive.apache.org/dist/spark/spark-2.0.0/ 编译: ./dev/make-distribution.sh --nam...

hive on spark 集成（spark-sql 整合hive）

Siobhan_Mxin的博客

03-05

1502

hive on spark的整合配置及具体实现文档

Hive基础之HiveServer2 JDBC的使用

weixin_34066347的博客

09-09

180

启动HiveServer2： cd $HIVE_HOME/bin 以后台方式默认端口启动HiveServer2(默认端口是10000)：hiveserver2 & 以后台方式指定端口的方式启动：hiveserver2 --hiveconf hive.server2.thrift.port=14000 & 使用beeline连接HiveServer2： cd $HIV...

Apache hive 3.1.2从单机到高可用部署 HiveServer2高可用 Metastore高可用 hive on spark hiveserver2 web UI 高可用集群启动脚本

weixin_52918377的博客

05-21

2595

hive部署下载apache hive 3.1.2 http://archive.apache.org/dist/hive/ 注：先看hive编译文档，使用编译好的安装包进行部署官方的hive3.1.4和sprk3.0.0不兼容，需要重新编译。后面配置hive on spark 可以使用spark2.3.0。而spark2.3.0对应的hadoop版本是2.x。重新编译，参考本人写的另一篇文章 hive3.1.4源码编译兼容spark3.0.0 hive on spark 升级guava版本兼容

hive on spark 还是 spark on hive?

chashugu2022的博客

08-31

2181

在运行sql的时候，hive on spark 还是 spark on hive 到底是什么呢？它们是一个东西吗？区别是什么？

hive on spark 的架构和常见问题 - hive on spark 使用的是 yarn client 模式还是 yarn cluster 模式？

明哥的IT随笔

06-20

823

来自官方的经典的 spark 架构图如下：上述架构图，从进程的角度来讲，有四个角色/组件：

spark HiveThriftServer2

cxy1991xm的博客

07-25

1833

1、HiveThriftServer2对于spark来说，就是一个任务。对客户端来说，是一个JDBC服务，和hive中hiveServer2服务类似。因此客户端可以通过JDBC连接访问HiveThriftServer2，执行sql语句。将hive-site.xml拷贝到spark配置文件目录下，修改hive-site.xml中hive.server2.thrift.port的值，即是HiveThr...

Ranger中对hive添加policy字后，hive登录用户可用，hive密码不管用的问题解决，HiveServer2 Authentication Custom的编写

涂作权的博客

05-14

2077

1、Ranger中对Hive的库、表、列进行授权在做Hive的访问权限控制的时候，Ranger中对hive中添加了如下Policy权限控制。配置方式如下： 2、默认情况下，Ambari中hiveserver2的HiveServer2 Authentication默认是None,如下：所以发现在服务器上进行访问hive的时候（类似：hive -n userName -p pwd），发现pwd随便写，都可以进入hive中。这个显然是有问题的。为了解决上面的问题，这里，我们自己定义HiveServer2

Spark-SQL连接Hive的五种方法

qq_56740631的博客

12-11

2341

若使用Spark内嵌的Hive，直接使用即可，什么都不需要做（在实际生产活动中，很少会使用这一模式）将hive-site.xml 文件拷贝到项目的 resources 目录中。此处的 node01 改为自己的 hadoop 用户名称。以上就是Spark-SQL连接Hive的五种方法。4.启动Thrift Server。（以上步骤同方法二）

大数据最佳实践-hive on spark

program哲学

04-22

1688

目录Spark 内存配置spark动态分配Hive Spark 内存配置 yarn.nodemanager.resource.memory-mb = 100 GB yarn.nodemanager.resource.cpu-vcores = 28 < 机器核心数 yarn.scheduler.maximum-allocation-mb>(spark.yarn.executor.memoryOverhead+spark.executor.memory ) spark.executor.cores

Hive的hiveserver2和beeline的使用以及spark thritfserver的启动

a18792721831的博客

02-24

6327

Hive的hiveserver2和beeline的使用以及spark thritfserver的启动Hive 的hiveserver2介绍hiveserver2 的配置beeline连接hiveserver2配置hiveserver2的界面spark thriftserver的配置beeline 连接spark thriftserverthriftserver和spark-sql对比spark sql 程序连接thriftserver Hive 的hiveserver2介绍 HiveServer2 (HS2

HiveServer2 架构源码详解

u013332124的专栏

06-29

8492

文章目录一、HiveServer2的启动二、HiveServer2的各个服务组件1、ThriftCLIService2、CLIService3、SessionManager4、OperationManager三、一个命令的具体处理过程1、一个命令的处理流程2、关于SessionHandle和OperationHandlebeeline客户端是如何获取日志输出的四、HiveServer2中的那些重要...

hive on spark 部署

yang灬仔

04-29

2700

1. 环境 Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. tez, spark) or using Hive 1.X releases hive默认使用mr作为计算引擎，当进入cli时会看到以上的提示信息，刚好有hive2.1.0，查了下pom文件，依赖了spark1.6.0，版本

Spark HiveServer2中使用jdbc客户端用户运行spark job

melin1204的博客

05-05

425

Spark HiveServer2中使用jdbc客户端用户运行spark job 大致问题与这篇文章分析相同【[HiveServer2中使用jdbc客户端用户运行mapreduce](http://blog.javachen.com/2013/10/17/run-mapreduce-with-client-user-in-hive-server2.html)】，但因为是spark引擎，具...

spark基础之Spark SQL和Hive的集成以及ThriftServer配置

最新发布

06-26

在 Hive on Spark 环境中，任务的提交流程涉及将 Hive 查询逻辑转换为 Spark 任务，并通过 Spark 的执行框架进行调度和运行。以下是 Hive on Spark 提交 Spark 任务的核心机制与关键组件： ### 任务提交流程 1. **查询解析与逻辑计划生成** Hive 首先对 SQL 查询进行解析，生成抽象语法树（AST），然后构建逻辑计划（Logical Plan）。该阶段主要由 Hive 的解析器和优化器完成。 2. **物理计划生成与任务转换** 在生成物理计划时，Hive 使用 `SparkCompiler` 将逻辑计划转换为 Spark 可执行的任务结构，包括 RDD 或 DAG 操作[^3]。这个过程会构建一个 `SparkWork` 对象，表示整个 Spark DAG 执行计划。 3. **任务封装与提交** Hive 中的 `SparkTask` 负责将 `SparkWork` 转换为实际的 Spark Job，并通过 `SparkJobExecHelper` 进行封装和提交。`SparkJobExecHelper` 会处理 Spark 作业的生命周期管理，包括提交、状态监控和失败重试等[^1]。 4. **异步提交与执行** 最终，Hive 使用 `foreachAsync` 方法将多个 `SparkTask` 异步提交到 Spark 集群上执行。每个 `SparkTask` 对应一个或多个 Spark Job，具体取决于查询的复杂度和数据分片情况[^3]。 ### 示例：提交 Hive 查询任务当用户执行如下 HiveQL 查询时： ```sql SELECT * FROM sales WHERE amount > 1000; ``` Hive 会自动将该查询编译并转换为 Spark 任务，最终由 SparkContext 提交到集群中运行。整个过程中，用户无需手动干预任务的 Spark 层级配置。 ### 常见问题与注意事项 - **连接丢失问题** 如果在任务执行过程中出现 "Connection to remote Spark driver was lost" 错误，通常是由于 HiveServer 无法与 Spark Driver 保持稳定通信所致。此时需要检查网络连接、Spark 应用程序生命周期以及 HiveSession 的有效性[^4]。 - **性能调优建议** Hive on Spark 减少了磁盘 I/O，提升了执行效率，但在复杂查询中仍需合理设置 Spark 的内存参数（如 `spark.executor.memory` 和 `spark.driver.memory`）以避免 OOM 或 GC 问题[^2]。 ---