
hive
longlovefilm
这个作者很懒,什么都没留下…
展开
-
几种数据倾斜处理
1、 count(distinct ) 倾斜处理分三层处理with t1 as ( select 1 as f1, 2 as f2 union all select 1 as f1, 21 as f2 union all select 1 as f1, 22 as f2 union all select 1 as f1, 23 as f2 union all select 1 as f1, 24 as f2 union all selec原创 2021-12-21 20:15:17 · 150 阅读 · 0 评论 -
yarn中mr参数配置
一、nodemanager/ratio yarn.nodemanager.resource.memory-mb集群中某个计算节点分配给nodemanager的最大可用内存,这个最大可用内存不是该节点最大内存,而是该节点最大内存划分出来的给nodemanager使用的内存,该配置项在集群启动后,无法动态改变。比如一个节点最大内存为128G,计划给nodemanager80%的内存资源,则设置yarn.nodemanager.resource.memory-mb为103G,其余25G用作该节点其他资源调原创 2021-05-16 13:59:59 · 907 阅读 · 0 评论 -
hive sql tips
1 map arrayint size(Map<K.V>)Returns the number of elements in the map type.int size(Array<T>)Returns the number of elements in the array type.boolean array_contains(Array<T>, value)Returns TRUE if the array contains value.arr原创 2021-04-06 19:34:05 · 98 阅读 · 0 评论 -
hive常用操作1
1重命名分区ALTER TABLE table_name PARTITION partition_spec RENAME TO PARTITION partition_spec;partition_spec: :(partition_col = partition_col_value, partition_col = partiton_col_value, ...)实例:hive> showpartitions people;OKdepartment=1/sex=0/h..原创 2021-03-31 14:17:48 · 152 阅读 · 0 评论 -
hive 常用函数操作
一 hive mysql create table as/like区别mysql-- 没有开启gtid的情况下,不拷贝数据,只创建一模一样的表结构,包括索引约束等,结合insert语句可以实现复制一个表的结构和数据的目的create table tbl_test_bak like tbl_test; insert into tbl_test_bak select * from t...原创 2020-03-15 20:09:57 · 619 阅读 · 0 评论 -
Hive数据倾斜的原因及主要解决方法
数据倾斜产生的原因数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类Hive倾斜之group by聚合倾斜原因: 分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久; 对一些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进行group by的时候,会将相同的group by字段的reduce任务需要的数据拉取到同一个节点进行聚合,而当其中每一组的数据量过大时,会出现其他组的计算已经完成而这个reduce还没有计算完成,其他的节点一直等待这个节点的原创 2020-06-22 23:16:52 · 514 阅读 · 0 评论 -
hive sql例子
例子1:select * from business;jack 2017-01-01 10jack 2017-01-02 10tom 2017-01-01 10tom 2017-01-02 10tom 2017-01-03 10andy 2017-01-01 10andy 2017-01-02 10andy 2017-01-03 10lucy 2017-01-01 10lucy 2017-01-02 10lucy 2017-01-03 10jack 2.原创 2020-05-13 16:19:20 · 400 阅读 · 0 评论 -
hive map reduce数量
一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文件a,大小...原创 2019-11-24 15:37:28 · 422 阅读 · 0 评论