随着移动互联网和大数据的蓬勃发展,“数据即资产”的理念深入人心。大数据已发展成为具有战略意义的生产资料,在各行各业发挥着极其重要的作用,而大数据也给很多企业带来了前所未有的自豪感和自信感。
但是,大数据真的是越“大”越好吗?大数据到达一定的规模,其所需承载的集群资源成本、数据开发维护成本和数据管理成本,将会呈几何式增长,同样也将会带来一笔巨额的开销。
如果缺少科学有效的治理管控,就会出现大量的“负”数据资产,这不仅会吞噬公司的利润,还会极大影响数据业务的发展以及平台运行的稳定。
很多大数据公司都会面临这样一些窘境:
- 新开发的数据任务,赶紧上,却发现集群资源不够了。
- 早上要跑完的任务,上午还没跑完,报表什么时候能看到?
- 上个月刚删了很多数据,存储又快满了,每天还有大量的数据在增长。
- 小文件数量这么多,集群 NameNode