HIVE-on-Spark

本文介绍如何将Hive的计算引擎从MapReduce切换到Spark,包括配置步骤、基本操作指令,以及Hive on Spark项目的背景和优势。通过使用Spark作为计算引擎,Hive查询性能得以提升,为已部署Hive或Spark的用户提供更多灵活性。

hive底层是通过MR进行计算,将其改变为SparkCore来执行

配置步骤
1.在不是高可用集群的前提下,只需要将Hadoop安装目录中的core-site.xml拷贝到spark的配置conf文件目录下即可
2.将hive安装路径下的hive-site.xml拷贝到spark的配置conf配置文件目录下即可
注意:
若是高可用:需要将hadoop安装路径下的core-site,xml和hdfs-site.xml拷到spark的conf目录下

操作完成后建议重启集群
通过sparksql来操作,需要在spark安装路径中bin目录

启动:
spark-sql  \
--master spark://hdp-1:7077 \
--executor-memory 512m  \
--total-executor-cores 2 \
--jars /root/mysql-connector-java-5.1.39.jar \
--driver-class-path  /root/mysql-connector-java-5.1.39.jar
基本操作:
1.创建表:
create table person1(id int,name string,age int) row format delimited fields terminated by ' '
2.加载数据:(本地加载)
load data local inpath '/root/person.txt' into table person1;
3.查询:
select * from person1;
select name,age from person1 where age > 20 order by age;
4.删除
drop table person1

​ hive on Spark是由Cloudera发起,由Intel、MapR等公司共同参与的开源项目,其目的是把Spark作为Hive的一个计算引擎,将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目,可以提高Hive查询的性能,同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择,从而进一步提高Hive和Spark的普及率。

Hive On Spark (跟hive没太大的关系,就是使用了hive的标准(HQL, 元数据库、UDF、序列化、反序列化机制))

Hive原来的计算模型是MR,有点慢(将中间结果写入到HDFS中)

Hive On Spark 使用RDD(DataFrame),然后运行在spark 集群上

真正要计算的数据是保存在HDFS中,mysql这个元数据库,保存的是hive表的描述信息,描述了有哪些database、table、以及表有多少列,每一列是什么类型,还要描述表的数据保存在hdfs的什么位置?

hive跟mysql的区别?

hive是一个数据仓库(存储数据并分析数据,分析数据仓库中的数据量很大,一般要分析很长的时间)

mysql是一个关系型数据库(关系型数据的增删改查(低延迟))

hive的元数据库中保存要计算的数据吗?

不保存,保存hive仓库的表、字段、等描述信息

真正要计算的数据保存在哪里了?

保存在HDFS中了

hive的元数据库的功能

建立了一种映射关系,执行HQL时,先到MySQL元数据库中查找描述信息,然后根据描述信息生成任务,然后将任务下发到spark集群中执行

hive on spark 使用的仅仅是hive的标准,规范,不需要有hive数据库一样可行。

hive : 元数据,是存放在mysql中,然后真正的数据是存放在hdfs中

### 配置 Hive on SparkSpark 参数 对于配置 Hive on Spark 中的 Spark 参数,具体操作涉及多个方面。当设定这些参数时,需考虑集群资源分配以及性能调优等因素。 #### 设置基本 Spark 参数 在 `hive-site.xml` 或者通过命令行启动 Hive CLI/Beeline 之前设置环境变量来指定一些基础性的 Spark 属性是非常重要的。例如: ```bash export SPARK_MASTER=yarn export SPARK_HOME=/path/to/spark ``` 接着,在提交作业给 YARN 资源管理器前,应该定义好日志记录的位置以便后续查看运行状态和调试错误信息: ```properties spark.eventLog.enabled=true spark.eventLog.dir=hdfs://namenode:port/spark-history ``` 这里需要注意的是端口的选择取决于所使用的 Hadoop 版本;如果是2.x系列,则应使用8020作为默认文件系统的RPC通信端口[^2]。 #### 调整内存大小及其他高级选项 为了确保良好的性能表现并充分利用硬件资源,合理调整 Executor 和 Driver 的堆外内存量至关重要: ```properties spark.executor.memory=1g spark.driver.memory=1g ``` 上述配置意味着每个 executor 将获得1GB RAM用于处理数据集片段,而 driver 则同样被赋予相同数量的空间以支持整个应用程序的操作需求。 除了以上提到的关键属性之外,还可以依据实际应用场景进一步微调其他可用参数,比如并发度(`spark.sql.shuffle.partitions`)、缓存策略等,从而达到更佳的效果。 #### 测试配置有效性 完成所有必要的更改之后,可以通过执行简单的查询语句验证新引擎是否正常工作: ```sql set hive.execution.engine=spark; SELECT * FROM table LIMIT 10; ``` 如果一切顺利的话,这将会触发基于 Spark 架构下的分布式计算过程,并返回预期的结果集[^3]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值