hive技术总结

最新推荐文章于 2024-05-22 01:09:26 发布

记录点滴人生

最新推荐文章于 2024-05-22 01:09:26 发布

阅读量697

点赞数 1

CC 4.0 BY-SA版权

分类专栏： hive 文章标签： hive 架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wodatoucai/article/details/50021155

hive 专栏收录该内容

4 篇文章

订阅专栏

1.hive基本架构

driver 解释器编译器优化器运行器

metadata 存储元信息

hadoop 集群

可与其他框架关联元数据

2.hive 数据类型

与传统sql的数据类型多了 map array struct

3.hive 定义

分区partitioned by

分桶 bucket

例如：

Create table t (user_id int,url string)
partitioned by (dt string)
clustered by (user_id) INTO 96 buckets;

set hive.enforce.bucketing = true;

数据倾斜 skewed keys() on()

4.map-side

适合大表和小表关联，小表放到内存中，默认为reduce-side

使用方式：

select /*+MAPJOIN(b)*/ a.key
from a join b on a.key=b.key

5.order by 和 sort by

order by 需与limit连用，一个reduce聚合，效率较低
sort by为内部有序，全局无序，效率较高，一般与distribute by 连用

select s.ymd,s.symbol,s.price_close
from stocks s
distribute by s.symbol

sort by s.symbol,s.ymd;

可实现同一symbol下有序

再无序sort ymd的情况下=
select s.ymd,s.symbol,s.price_close
from stocks s
cluster by s.symbol;

6.Transform

类似hadoop streaming，允许任意语言编写mr嵌入到hql中，在java进程中额外启动一个线程运行脚本/二进制程序，并通过标准输入输出进行数据传递

7.自定义udf，udaf，udtf

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。