一种大数据物理机集群的自动化运维管理办法

本文介绍了一种针对物理机部署的大数据集群自动化运维管理方案,通过智能选择服务器类型、自适应调整组件参数、监控资源使用率及实现弹性伸缩等功能,显著提升了运维效率和资源利用率。

大数据集群的物理机部署形态,相对于公有云/混合云的云主机部署形态,在自动化发放集群、弹性伸缩等云化场景方面处于劣势,但物理机部署形态的大数据集群能够更加充分高效的利用服务器资源,不存在云化/虚拟化的开销,同时服务器的异构能力更强。

早期交付的很多大数据集群均是物理机部署形态,如浙江移动大数据集群、广东移动大数据集群、工行大数据集群、招行大数据集群等。

针对这些存量大数据集群,以下介绍一种自动化运维管理办法,来提升运维效率、集群资源利用率,降低集群的资源消耗。

该自动化运维管理办法包含以下4个方面的功能:

1、根据组件特点选择最适合服务器类型来部署、扩容或更换:

  • 部署和扩容原则是每种服务器仅部署一个上层组件,不混合部署多个组件。该原则能够使后面弹性伸缩的管理更加方便。从服务器资源池自动选择最适合组件资源负载特点的服务器类型。
  • 服务器分类规则:Elasticsearch、Kafka、Clickhouse选择满配SAS盘服务器(较大容量存储、高IO吞吐量、低IO延迟),Flink、Redis选择少量SSD盘服务器(较小容量存储、高IO吞吐量、低IO延迟),Hive、Spark选择满配SATA盘服务器(大容量存储、高IO吞吐量、不追求低IO延迟)。HBase标准场景可选择满配SATA盘服务器,极致高性能场景可选择满配SAS盘服务器。
  • 组件参数根据实际物理机配置进行自动化初始设置;如Yarn NodeManager的VCores和内存,HDFS和Kafka的存储路径设置。--这一步是初始化设置,所设置的软件参数均是和硬件服务器有关的参数。

2、组件参数根据作业负载情况自适应重设:根据实际作业运行的特点情况,自动化、最优化的设置组件/软件参数,这些参数和硬件服务器无关,但和实际作业运行的需求有关,其目的是把服务器资源最大化利用,以保证组件的高性能。

  • Yarn资源分配和实际占用是有差异的,必须把参数重设更大或更小来满足实际运行情况。Yarn资源分配是账面数字,但实际业务负载在运行后才体现其资源占用情况,因此在运行后根
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值