使用COALESCE和REPARTITION解决SPARK SQL(hadoop) 小文件过多的问题

背景

最近在做数仓宽表开发时,发现某些表的在hadoop(命令:hdfs dfs -ls)上小文件特别多,整体数据量不大,每个分区却有几百个小文件。而小文件太多带来的主要影响是:

1、占用过多的nameNode 资源,影响hadoop集群稳定性。一个小文件需要在nameNode中维护一份元数据(目录、大小、权限等信息) ,占用的资源是 150字节(Byte),100个小文件则占用 14.6KB。如果每天的数据都存在新的分区里,久而久之小文件会越来越多,所造成的内存压力也会越来越大。而NameNode很多情况下是单节点,且所有元数据加载在内存中,即使做了HA,所有的元数据也会存贮在一台机器上。

2、对计算性能产生影响。spark在进行计算时,每个分区都会启动一个task进行并行计算,而一个小文件算是一个分区。并行计算可以提高工作效率,但是却会占用更多的计算资源。每个小文件启动一个task,效率上肯定是不划算的。

因此必须找到问题原因,并加以解决。

产生原因

通过对这几个表进行观察,发现通用的现象是 在sql中大量使用了union all。由于union 需要去重,效率比较低,因此基于hadoop系大数据组件进行开发时,推荐使用union all。举个简单例子:

with 
tmp as (
    select * from aa
    union all
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值