hive调优汇总

最新推荐文章于 2024-04-13 20:49:38 发布

秃头小姐

最新推荐文章于 2024-04-13 20:49:38 发布

阅读量255

点赞数

CC 4.0 BY-SA版权

分类专栏： hive 文章标签： hive 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42277332/article/details/115621000

hive 专栏收录该内容

4 篇文章

订阅专栏

                    
                        
                    
                    mapjoin：默认打开
行列技术：join where => where + join
采用分区
列存储（加快查询速度）
压缩（减少磁盘IO）
合理设置map个数

块大小：max(1, min(快大小，Long的最大值))

块大小一般设置128m数据 =》1个maptask
distribute by rand()，将数据随机分区，保证每个分区的数据流基本一致
合理设置reduce个数；可以根据数据量适当增加reduce个数；
小文件如何产生？
动态分区
reduce个数设置的过多;分区的key设置的不合理
输入源本身就是小文件

解决小文件问题
combinehiveInputformat 合并
开启JVM重用
merge  如果是maponly任务，默认功能打开

执行完任务，产生小文件，再开启一个作业，这个作业负责将默认小于16m的文件进行合并，默认合并到256m
如果是mr任务。merge功能需要打开

在map阶段开启combiner

set hive.map.aggr = true
替换引擎
mr引擎：基于磁盘；    速度慢	跨天，数据量比较大的场景
tez引擎：基于内存；    速度快    数据量比较小，临时测试，验证
spark引擎：基于磁盘 + 内存    速度较快     当天的定时任务




                

博客等级

码龄7年

92
原创

37
点赞

81
收藏

38
粉丝

关注

私信

热门文章

分类专栏

hive 4篇
hadoop 16篇
算法-图 1篇
Sqark 1篇
机器学习 7篇
tensorflow2.0 3篇
进阶 53篇
图像处理 2篇
属性学习 3篇
业余 1篇

展开全部收起

上一篇：: 数据倾斜

下一篇：: 图-node2vec

最新评论

Spark中的Standalone 模式配置时的坑
秃头小姐: rm -rf对应名称就可以
Spark中的Standalone 模式配置时的坑
瑾不瑜: 怎么格式化，有没有具体步骤
23 阶乘最后的非0位
长发无非遮丑: [code=cpp] //求最后非0位时，一般思路是只保留最后一位，但这是错的，因为前面的可能有进位 //天秀之笔，本来是%10，但是精度不够，因为如果每次只保留最后 //非0位的话会出错。所以在计算机允许的情况下尽可能保留多一点。 } n--; } int ans = min(num2, num5); cout << r % 10 <<" " << ans << endl; } return 0; } [/code]
23 阶乘最后的非0位
长发无非遮丑: 题目：N!的最后非零位和末尾零的个数附上完整代码[code=cpp] #include <iostream> #include<stack> #include<algorithm> #include<string> #include<stdlib.h> #include<sstream> #include<bitset> using namespace std; int getnum_2(int n) { int count = 0; while (n % 2 == 0 && n != 0) { count++; n = n / 2; } return count; } int getnum_5(int n) { int count = 0; while (n % 5 == 0 && n != 0) { count++; n = n / 5; } return count; } int main() { int n; while (cin >> n) { int r = 1; int num2 = 0; int num5 = 0; while (n) { num2 = num2 + getnum_2(n); num5 = num5 + getnum_5(n); r = n * r; if (r >= 10) { while (r % 10 == 0) { r = r / 10; } r = r % 100000; //求0的个数很简单，就是求2和5的指数中较小的那一个嘛。 //求最后非 [/code][code=cpp] [/code]
23 阶乘最后的非0位
长发无非遮丑: 姐姐你好秀啊，“n=n%1000;//100精度不够”这个是真的秀到我了，网上其他做法都没这个秀。嘻嘻，不过改成“n=n%100000;”才能得到AC，学到了！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。