大数据之非常详细Spark SQL操作Hive的读写过程

本文详细介绍了SparkSQL如何操作Hive进行数据读写的过程。包括SparkSQL与Hive的关系、Hive的功能及查询机制,并提供了具体的操作步骤,如配置SparkSQL访问Hive、启动相关服务以及通过SparkSQL查询Hive中的数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据

大数据之非常详细Spark SQL操作Hive的读写过程



一、Spark SQL架构和原理

1.shark和hive关系

Hive是Shark的前身

2.Hive的两种功能

2.1 作为数据仓库提供存储功能

Hive的元数据,如库、表等结构信息,均由Hive自身来维护,但数据本身存储在HDFS集群中

2.2 作为查询引擎提供检索查询功能

3.Hive的查询功能如下

1、将HQL翻译成MR代码。
2、将job打成jar包并发送到Hadoop集群中运行

二、Spark SQL操作Hive的方法

1.SparkSQL访问Hive仓库

在Spark安装目录中的conf目录下,添加hive配置文件

cd /opt/module/spark-2.1.1/conf
vi hive-site.xml

在这里插入图片描述

2.启动服务

在MySQL安装节点(slave001)启动MySQL服务:

systemctl start mysqld.service

在这里插入图片描述

启动Hive元数据服务,并验证Hive是否可用
启动命令如下

nohup hive --service metastore &>metastore.log&

在这里插入图片描述在这里插入图片描述

3.启动Hadoop集群

在这里插入图片描述

4.启动SQL

在这里插入图片描述

三、通过Spark SQL查询表中的数据

在hive中创建库test,表stu,并加载数据;然后通过Spark SQL查询表stu中的数据。

1.创建数据库test

在这里插入图片描述

查看一下是否创建出了test数据库

在这里插入图片描述

2.创建表stu

在这里插入图片描述

查看是否创建表成功

在这里插入图片描述

3.插入数据

在这里插入图片描述

查看是否插入成功

在这里插入图片描述

4.Spark连接Hive读写数据

利用spark-shell切换到终端窗口

在这里插入图片描述

显示数据库

在这里插入图片描述

查询数据

在这里插入图片描述


总结

以上就是今天要讲的内容,本文仅仅简单介绍了大数据之非常详细Spark SQL操作Hive的读写过程,结合以上步骤和书中内容相信你也可以的,加油。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值