大数据面临一个具有讽刺意味的小文件问题,它会阻碍生产力并浪费宝贵的资源。
如果管理不善,小文件问题会降低数据系统的性能,并使您的分析变得陈旧。这种违背目的的,不是吗?
HDFS 文件存储通常没有优化,它会导致 NameNode 内存利用率和 RPC 调用不佳。这最终阻止了扫描吞吐量的下降,并降低了应用层的性能。如果您是任何现代数据湖的大数据管理员,您总会遇到小文件问题。
分布式文件系统很棒,但让我们面对现实吧,您拆分存储层的次数越多,读取这些文件时的开销就越大。因此,我们的想法是优化文件大小以最好地服务于您的用例,同时积极优化您的数据湖。
小文件对业务的影响
- 减慢阅读速度— 读取小文件需要多次查找以从每个小文件中检索数据,这是一种低效的数据访问方式。
- 减慢处理速度— 小文件会减慢 Spark、MapReduce 和 Hive 作业的速度。例如,MapReduce 映射任务一次处理一个块。文件每个使用一个地图任务,如果有很大的编号。每个地图任务处理的输入很少。文件的数量越大,任务的数量就越大。
- 浪费存储— 每天在运行作业时可能会创建数十万个每个大小为 5 KB 甚至 1 KB 的文件,这些文件会迅速增加。它们所在位置缺乏透明度增加了复杂性。
- 过时的数据— 所有这些都会导致数据陈旧,从而拖累提取价值的整个报告和分析过程。如果作业运行不快或响应速度慢,决策就会变慢,数据就不再有价值。你失去了数据首先要带来的优势。
- 花时间解决运营问

最低0.47元/天 解锁文章
2659

被折叠的 条评论
为什么被折叠?



