号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部
下午好,我的网工朋友。
随着互联网、云计算需求的爆发式增长,数据中心的规模不断扩大,稳定、能耗、占地等问题持续困扰着数据中心的各位运营者。
维护、持续扩容等新的问题接踵而来。为了应对挑战数据中心的形式也在不断的变化。
从早期的集中供电集中制冷到分布式供电分布式制冷,从机柜摆放方向的简单调整到封闭冷/热通道,从简单划分功能区的数据中心到现在流行的微模块数据中心。
今天我们就来了解一下数据中心常规运维工作的重要性并通过下文介绍熟悉数据中心常规运维的工作内容。
今日文章阅读福利:《 2024运维学习提升必备资料 》
私信发送暗号“运维大礼包”,即可获取这份资料包,强烈推荐给各位想要系统学习运维的朋友们。
01 运维常规工作重要性
01 运维工作面临的挑战
功率密度升高,给运维人员反应的时间更短,管理难度加大。
Uptime报告显示,数据中心超过70%的故障由于人为操作失误造成。
【1】主要故障类型:
A、磨损所致
设备也有生命现象,累计达到某一使用程度之后,就寿终正寝,想修都没得修,只有更新换代,这一点在高精密的设备上表现的最明显。
设备的磨损可分为有形磨损和无形磨损二种。有形磨损是指:设备在使用过程中发生的物质磨损或由于环境自然侵蚀而造成的物理、化学变化。无形磨损是指:由于科学技术的进步,使得设备的使用价值降低,甚至被淘汰。
B、异常操作所致
几乎所有的设备的动作顺序都有严格的要求,由不得你随意操作,不遵守操作规程,只会直接导致或加速其产生故障。现场管理活动中,未熟练的新人,错误的操作、设定,都是损坏设备的最直接的“杀手”。
C、非法改变其功能所致
如果设备在设计上就潜在着该功能的话,那么对其对进行改造,恐怕还无大碍,就怕没有该项功能,却硬要强加该功能,这会活活要了设备的“命”。
D、超负荷使用
人停机不停,一天二十四小时连轴转,一年开足三百六十五天,不坏就不停;不坏就不修,一心急着要翻本,这是“山寨厂”典型的设备使用方法。虽然有的设备在超负荷状态下,暂时看不出有什么故障发生,然而超负荷运转,却使设备产生疲劳,老化、磨损进程大大加快,最终导致寿命缩短。
E、 设计上潜在不良因素
<