1.设置hive多线程
set hive.exec.parallel=true;
set hive.exec.parallel.thread.number=8;
set hive.exec.parallel.thread.number=8;
线程数默认为8,设置线程数优点是多进程同时跑,速度会快很多,缺点是会增加map(map 并不是越多越好),设置进程数大小要适当;
2.设置map数,reduce数
map的文件块目前一个文件块是128M,根据文件的大小可以自己设置一下map的数量

本文介绍了如何通过设置Hive的多线程来提升性能,特别是针对大表与小表关联的问题进行优化。通过使用MapJoin提示,可以将小表加载到内存中,避免null结果。同时,调整大表和小表的关联顺序也能影响查询效率。
最低0.47元/天 解锁文章
483

被折叠的 条评论
为什么被折叠?



