Hive的基础到调优大全

一.hive基本概念

1.什么是hive
基于hadoop的数据仓库的工具,将结构化的数据映射成一张表,提供类sql的查询功能.
hive运行的本质就mapreduce.
2.hive的特点
1.可扩展
Hive可以自由的扩展集群的规模,一般情况下不需要重启服务.
2.延展性
Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数.
3.容错性
良好的容错性,节点出现问题SQL仍可完成执行.
3.hive的架构
(1)用户接口:提供写sql的客户端
(2)解析器:主要包括三部分:
1)编译器:将sql编译成mapreduce
2)优化器:对执行的sql,mr进行优化
3)执行器:执行mr作业
(3)元数据存储:通常是存储在关系数据库如mysql/derby中.Hive 将元数据存储在数据库中.Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等.
在这里插入图片描述
4.hive存储
1)数据存储:hdfs
2)元数据库:默认 derby
3)hive数据存储:
Text SequenceFile,ParquetFile orc
5.启动命令
hive访问方式
(1) hive cli: bin/hive
(2) beeline:
前台启动: bin/hive --service hiveserver2
后台启动:nohup bin/hive --service hiveserver2 &
进入beeline:bin/beeline
连接hive :!connect jdbc:hive2://node02:10000
(3)hive命令:
hive -e 执行的sql
hive -f 执行的sql脚本

二.数据仓库

1.概念
Data Warehouse dw 或dwh
仓库:用户储存物品,粮仓:储存粮食. 数仓:数据仓库
数据仓库,不能创造数据,也不能消耗数据(删除),构建一个集成化的数据环境,往往用于企业数据分析和决策使用.
2.主要特征
1)面向主题:面向分析的内容进行数据的组织
2)集成性:多个数据源的数据集成到一起使用
3)非易失性:数据进行集合后不会轻易的删除
4)时变性:数据随时间变化,数据要更新.
3.数据仓库和数据库的区别
OLAP:联机分析处理(On-LineAnalytical Processing):对某一主题的历史数据进行分析,支持决策所用,对于数据仓库,往往进行查询分析所使用。
OLTP:联机事物处理(On-Line Transaction Processing):对于数据的增删改的事物操作
4.数据仓库的架构
1)源数据:ods,贴源层
2)数据仓库层:聚合数据,多维模型建立
3)数据应用层:做一个报表或图表综合展现
4)ETL(抽取Extra,转化Transfer, 装载Load)./configure --prefix=/usr/local/openresty --with-luajit && make && make install
5)元数据:数据仓库中数据模型的定义

三.Hive的基本操作

1.CURD数据库
create database if not exists myhive;
use myhive;
​ 创建指定目录的数据库:create database myhive2 location ‘/myhive2’;
​ 修改数据库:alter database myhive2 set dbproperties(‘key’=‘value’);
​ 查看数据库信息:desc database [extended] myhive2;
​ 删除数据库:drop database myhive2 [casecade];
2.创建表
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name //创建一张表 ,表名是table_name
[(col_name data_type [COMMENT col_comment], …)] //创建指定字段
[COMMENT table_comment] //给当前表添加注释,注释中不能用中文
[PARTITIONED BY (col_name data_type [COMMENT col_comment], …)] //分区,将数据分文件夹进行存储
[CLUSTERED BY (col_name, col_name, …) //分桶,相当于mr中的分区
[SORTED BY (col_name [ASC|DESC], …)] INTO num_buckets BUCKETS] //将数据分到几个桶当中
[ROW FORMAT row_format] //行的格式化
[STORED AS file_format] //数据的存储类型
[LOCATION hdfs_path] //指定存储的路径
3.管理表
1.内部表
创建表的时候不使用external创建表,称之为内部表。当删除表的时候,表的数据也随之删除。
1)c

对于Hive on Spark的,有几个关键的配置可以考虑。首先,可以通过hive.auto.convert.join.noconditionaltask.size来控制将基础join转化为map join的阈值,从而影响性能。这个配置在Hive on MapReduce和Hive on Spark中都可以使用,但是两者的解释略有不同。 其次,可以通过设置一些Spark相关的配置来进行。例如,可以设置hive.execution.engine为spark来指定使用Spark作为执行引擎。还可以设置spark.executor.memory、spark.executor.cores、spark.executor.instances来整Spark执行器的内存和核心资源分配。另外,设置spark.serializer为org.apache.spark.serializer.KryoSerializer可以改进序列化的性能。 此外,Hive on Spark相比于Hive on MapReduce有更好的性能,并且提供了相同的功能。用户的SQL不需要进行修改,就可以直接在Hive on Spark上运行。同时,UDF函数也被全部支持。 总结起来,在运行于YARN模式下的Hive on Spark的,可以关注以下几点: 1. hive.auto.convert.join.noconditionaltask.size来控制基础join转化为map join的阈值。 2. 设置相关Spark配置,如hive.execution.engine、spark.executor.memory、spark.executor.cores、spark.executor.instances等,来化资源分配和序列化性能。 3. 充分利用Hive on Spark的性能势,无需修改SQL即可运行,并支持全部UDF函数。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [hive on spark ](https://blog.youkuaiyun.com/weixin_45489441/article/details/123252215)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [Hive on Spark](https://blog.youkuaiyun.com/javastart/article/details/126041883)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值