前言:
写在最前面的话,土豪以及数据中心提供统一服务的朋友基本可以无视,看看热闹就好,毕竟能用钱解决的问题都不是问题
需求来源:
由于各种原因,包含但不限于信息安全,方便管理,数据重用等原因,相当一部分的大数据业务产品需要进行本地化或者私有化部署,此时除了技术开销(产品成本)外,硬件开销也会成为一个头等大事,成为很多项目的重要考虑因素,所以在功能以及性能表现差不多的情况下,硬件成本更低成为产品竞争力的一个重要因素。
拆分成专业术语,上述需求其实就是内存,硬盘,CPU以及带宽资源的降低与优化,在当前大数据平台性能严重依赖内存的时代(尤其是非计算密集型或者没有机器学习或者深度学习的前提下),内存资源几乎是无法削减的,除非以牺牲性能为代价,所以优化的重点将从CPU.硬盘以及带宽上下手,如果内存有富余,尽量用内存去置换其他资源,从而达到性能最大化
设计方案:
平台现状:
公司内部是elasticsearch,hbase以及redis的重度使用者,考虑到抓大放小,立竿见影的目标,而redis几乎只靠内存,所以硬盘以及CPU的优化目标就只有拿elasticsearch和hbase开刀了,带宽毫无疑问只能拿传输的消息开刀了,下面就从CPU,硬盘以及带宽来进行分开描述。
具体实现:
CPU:
提高CPU资源使用率:
对于绝大多数非计算密集型的大数据平台来说,CPU在标配的服务器上一般都是富余资源,所以可以考虑使用CPU资源去置换其他资源,提高CPU使用率。
具体方案如下:
- CPU置换硬盘资源:对存储的数据进行Compression和Encoder,正巧elasticsearch和hbase(几乎所有的数据库)都支持,那就搞起吧,具体的实

本文探讨了如何在保证性能的前提下,优化大数据平台的CPU、硬盘和带宽资源,以降低硬件和带宽成本。针对CPU,提出了通过压缩和编码策略以及调整应用部署来提高使用率。在硬盘方面,建议数据滚动存储和优化存储结构以节省空间。带宽优化则包括使用码表转换和高效序列化算法减少传输负载。这些策略旨在帮助企业在有限的预算内提升大数据系统的效率。
最低0.47元/天 解锁文章
858





