
Hadoop
文章平均质量分 50
YB西部牛仔
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapJoin
b.每个Mapper从Distributed Cache读取HashTableFiles到内存中,在Map阶段直接进行Join,此时的map数由大表的数据量决定。2.hive.mapjoin.smalltable.filesize 默认值为2500000(25M),通过配置该。1.hive.auto.convert.join=true (default :true),自动开启mapjoin优化。属性来确定使用该优化的表的大小,如果表的大小小于此值就会被加载进内存中。原创 2023-01-13 17:37:58 · 301 阅读 · 0 评论 -
Hive skew join
Hive在reduce的过程中会将相同的key放入同一个reduce处理,当某个key的数据量过大时就会发生数据倾斜。原创 2022-12-30 17:41:54 · 1280 阅读 · 0 评论