分布式sparkSQL引擎应用:从远程通过thriftServer连接spark集群处理hive中的数据

本文介绍了如何使用Java程序通过ThriftServer远程连接Spark集群,执行SQL操作处理Hive中的数据。详细解析了从客户端连接ThriftServer,到ThriftServer将请求转化为Spark操作,再到数据加载和Map-Reduce执行的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

实现原理:

客户端(java程序)与thriftServer连接,thriftServer再代理客户端转换成spark的操作流程,再加载hive的数据到spark的worker节点,并运行Map-Reduce作业。这里只是个小案例,和大家一起来探讨一下原理。


步骤:

分发三个配置文件hdfs-site.xml、core-site.xml、hive-site.xml到所有worker节点 ==> 
  在有关的库下创建hive的数据表 ==> 
加载数据到hive表中 ==>
启动hdfs(如果有数据存放在hadoop集群的数据节点) ==>
启动spark集群(建议启动模式:完全分布式)==> 
启动thriftserver服务器 ==>
运行java代码。


[centos@h201 sbin]$ netstat -nao | grep 1000
tcp6       0      0 :::
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值