Hive详解——distribute by、cluster by的实际测试

最新推荐文章于 2024-12-06 13:57:55 发布

原创最新推荐文章于 2024-12-06 13:57:55 发布 · 2k 阅读

0 ·

CC 4.0 BY-SA版权

Hive 专栏收录该内容

14 篇文章

订阅专栏

本文通过两个基本测试案例，详细介绍了如何在Hive中设置Reduce任务数量，并观察其对数据分布和处理效率的影响。测试一使用默认设置，测试二手动设置了Reduce任务数量，对比了两种情况下数据输出的差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.基本测试一

set mapred.reduce.tasks=-1;
set mapreduce.job.reduces=-1;

hive (hive_db)> insert overwrite local directory '/root/distribute_result1'
              > select merid,money,name from store distribute by merid sort by money desc;

输出结果

set mapred.reduce.tasks=2;
set mapreduce.job.reduces=2;

hive (hive_db)> insert overwrite local directory '/root/distribute_result2'
              > select merid,money,name from store distribute by merid sort by money desc;

输出结果：