hive相关问题

本文介绍了Hive数据仓库的基本概念,包括Hive与Hadoop的关系、内部表与外部表的区别、表创建方法、数据装载方式及排序类型等。此外还涵盖了UDF实现步骤、执行计划查看方法、性能优化方案等内容。

1.表述hive和hadoop的关系:

  hive存储数据实在hdfs上,hive计算的底层使用的mapreduce,执行的程序运行在yarn上

2.hive的内部表和外部表的区别:

  内部表删除数据会把元数据和数据都删除

  外部表只删除元数据不会删除存储在hdfs上的数据

3.hive创建表有几种方式,分别是哪几种:

  有3中,分别为:create table 表名;create table 表名 as select  .....from ....;create table 表名 like 表名;

4.hive向表中装在数据的方式,分别为:

  有3种。分别为:load data 。。。。。。;insert overwrite table。。。;insert 插入方式。。。。

5.hive中有几种排序方式:

  4种。

    order by:全局排序;

    sort by:对每一个Reduce内部排序,对全局没有排序;

    distribute by:对数据进行分区,通常接合sort by进行使用

    cluster by:当distribute by 和sort by字段相同时,可以使用cluster by

6.描述hive中实现UDF的步骤:

    继承org.apache.hadoop.hive.ql.UDF,需要实现evaluate函数,编写代码

    打包上传

    加载架包 :add jar /home/lan/jar/udflower.jar;

    注册临时函数:create temporary function my_lower as 'com.udf.org.LowerUDF';

    使用

7.通过什么命令可以查看hive执行计划,即可以转化成几个MapReduce任务?

  explain select * from emp;

8.简单简述一下hive的优化方案:

  a.FetchTack(抓取任务):直接抓取数据出来,在配置文件中可以设置hive-default.xml.tmplate

  b.大表拆分成小表

  c.分区表

  d.数据的存储格式(textfile/orcfile/qarquet)

  e.sql优化

9.hive产生数据倾斜的原因和解决方法:

  产生数据倾斜的原因:

    1.key分布不均匀

    2.业务数据本身的特性

    3.某些SQL语句本身就有数据倾斜

  解决方案:

    1.调节参数

    2.调节sql语句

10.对桶表的理解:

  就是对hive的进一步细化和组织成桶,对一个表或者分区进行细化。

 

11.实例:

汽车销售实例:

 

 

  

 

  

  

 

 

  

 

转载于:https://www.cnblogs.com/congguanghui/p/8306079.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值