HIVE-on-Spark

最新推荐文章于 2024-07-02 08:02:53 发布

原创最新推荐文章于 2024-07-02 08:02:53 发布 · 410 阅读

0 ·

CC 4.0 BY-SA版权

Spark 同时被 2 个专栏收录

41 篇文章

订阅专栏

hive

3 篇文章

订阅专栏

本文介绍如何将Hive的计算引擎从MapReduce切换到Spark，包括配置步骤、基本操作指令，以及Hive on Spark项目的背景和优势。通过使用Spark作为计算引擎，Hive查询性能得以提升，为已部署Hive或Spark的用户提供更多灵活性。

hive底层是通过MR进行计算，将其改变为SparkCore来执行

配置步骤
1.在不是高可用集群的前提下，只需要将Hadoop安装目录中的core-site.xml拷贝到spark的配置conf文件目录下即可
2.将hive安装路径下的hive-site.xml拷贝到spark的配置conf配置文件目录下即可
注意：
若是高可用：需要将hadoop安装路径下的core-site,xml和hdfs-site.xml拷到spark的conf目录下

操作完成后建议重启集群
通过sparksql来操作，需要在spark安装路径中bin目录

启动：
spark-sql  \
--master spark://hdp-1:7077 \
--executor-memory 512m  \
--total-executor-cores 2 \
--jars /root/mysql-connector-java-5.1.39.jar \
--driver-class-path  /root/mysql-connector-java-5.1.39.jar
基本操作：
1.创建表：
create table person1(id int,name string,age int) row format delimited fields terminated by ' '
2.加载数据：(本地加载)
load data local inpath '/root/person.txt' into table person1;
3.查询：
select * from person1;
select name,age from person1 where age > 20 order by age;
4.删除
drop table person1

hive on Spark是由Cloudera发起，由Intel、MapR等公司共同参与的开源项目，其目的是把Spark作为Hive的一个计算引擎，将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目，可以提高Hive查询的性能，同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择，从而进一步提高Hive和Spark的普及率。

Hive On Spark （跟hive没太大的关系，就是使用了hive的标准（HQL，元数据库、UDF、序列化、反序列化机制））

Hive原来的计算模型是MR,有点慢（将中间结果写入到HDFS中）

Hive On Spark 使用RDD（DataFrame），然后运行在spark 集群上

真正要计算的数据是保存在HDFS中，mysql这个元数据库，保存的是hive表的描述信息，描述了有哪些database、table、以及表有多少列，每一列是什么类型，还要描述表的数据保存在hdfs的什么位置？

hive跟mysql的区别？

hive是一个数据仓库（存储数据并分析数据，分析数据仓库中的数据量很大，一般要分析很长的时间）

mysql是一个关系型数据库（关系型数据的增删改查（低延迟））

hive的元数据库中保存要计算的数据吗？

不保存，保存hive仓库的表、字段、等描述信息

真正要计算的数据保存在哪里了？

保存在HDFS中了

hive的元数据库的功能