如何管理数据湖中的小文件

大数据面临一个具有讽刺意味的小文件问题,它会阻碍生产力并浪费宝贵的资源。

如果管理不善,小文件问题会降低数据系统的性能,并使您的分析变得陈旧。这种违背目的的,不是吗?

HDFS 文件存储通常没有优化,它会导致 NameNode 内存利用率和 RPC 调用不佳。这最终阻止了扫描吞吐量的下降,并降低了应用层的性能。如果您是任何现代数据湖的大数据管理员,您总会遇到小文件问题。

分布式文件系统很棒,但让我们面对现实吧,您拆分存储层的次数越多,读取这些文件时的开销就越大。因此,我们的想法是优化文件大小以最好地服务于您的用例,同时积极优化您的数据湖。

小文件对业务的影响

  1. 减慢阅读速度— 读取小文件需要多次查找以从每个小文件中检索数据,这是一种低效的数据访问方式。
  2. 减慢处理速度— 小文件会减慢 Spark、MapReduce 和 Hive 作业的速度。例如,MapReduce 映射任务一次处理一个块。文件每个使用一个地图任务,如果有很大的编号。每个地图任务处理的输入很少。文件的数量越大,任务的数量就越大。
  3. 浪费存储— 每天在运行作业时可能会创建数十万个每个大小为 5 KB 甚至 1 KB 的文件,这些文件会迅速增加。它们所在位置缺乏透明度增加了复杂性。
  4. 过时的数据— 所有这些都会导致数据陈旧,从而拖累提取价值的整个报告和分析过程。如果作业运行不快或响应速度慢,决策就会变慢,数据就不再有价值。你失去了数据首先要带来的优势。
  5. 花时间解决运营问
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值