
hive
hive
秃头小姐
欢迎指教
展开
-
hive调优汇总
mapjoin:默认打开行列技术:join where => where + join采用分区列存储(加快查询速度)压缩(减少磁盘IO)合理设置map个数块大小:max(1, min(快大小,Long的最大值))块大小一般设置128m数据 =》1个maptaskdistribute by rand(),将数据随机分区,保证每个分区的数据流基本一致合理设置reduce个数;可以根据数据量适当增加reduce个数;小文件如何产生?动态分区reduce个数设置的过多;分区的key.原创 2021-04-12 14:21:46 · 252 阅读 · 0 评论 -
hive分桶抽样查询
分桶抽样查询 对于非常大的数据集,需要使用的是具有代表性的查询结果而不是全部。Hive可以通过对表进行`分桶抽样·来满足这个需求。查询表stu_buck中的数据hive (stu)> select * from stu_buck tablesample(bucket 1 out of 4 on id);tablesampletablesample是抽样语句语法:TABLESAMPLE(BUCKET x OUT OF y) 含原创 2021-03-13 09:36:35 · 343 阅读 · 0 评论 -
hive分桶步骤
1、创建分桶表不能直接通过load将数据导入分桶表,直接导入后查看会发现没有被分成4个桶! 【load不行,要走MapReduce任务】create table stu_buck(id int,name string)clustered by(id) 按id分桶into 4 buckets 分几个桶row format delimited fields terminated by '\t';2、创建普通表普通表目的:导入数据,将数据通过查询的方式导入分桶表3、将数据load到原创 2021-03-13 09:36:23 · 520 阅读 · 0 评论 -
hive查询中的排序总结
四个排序总结order by全局排序reduce启动个数为一个sort by区内排序和distrbute by 结合使用reduce个数为多个distribute by同上reduce个数为多个cluster by当distribute by 和 sort by相同时 使用。reduce个数为多个全局排序(Order By)Order By:全局排序,一个Reducer,使用 Order By 子句排序ASC(ascend):升序(默认);DESC(原创 2021-03-13 09:36:10 · 283 阅读 · 0 评论