如何通过各种数据挖掘运维价值

本文介绍了如何通过数据挖掘运维的价值,包括选择合适的技术栈进行数据收集、处理和展示,关注业务的核心指标,以及通过PCU、模拟用户行为和用户来源分析进行业务监控。此外,探讨了智能伸缩与辅助运营,利用数据来优化开服和合服策略,提升运维团队的业务贡献。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关于作者

温峥峰,百田信息运维技术专家,DevOps team leader,运维自动化平台负责人,曾就职于网易游戏,专注于 运维自动化建设、DevOps实践 与 海量游戏技术运营。知乎ID @Hi峰兄

前言

改进一个功能是否真的有效果,需要数据说话;

一个运维操作是否有效果,也需要数据说话;

杜绝拍脑袋,数据为王。


「可量化」是一个严谨的技术人员需要追求的客观准则,用一个更加高级的词汇来描述是「可计价」。

一切行为都是有价值的,特别是对线上环境的各种的运维操作、变更,会造成怎样的影响,我们如何判断其价值所在?


作者之前所写的《中小型运维团队如何设计运维自动化系统》zhuanlan.zhihu.com/p/31,主要讲述了 DevOps 体系中最核心的两大模块:CMDB 和 作业平台,然后次核心是数据平台 ,无论是监控、辅助运营、智能伸缩、故障自愈等高级功能都要依赖数据来驱动实现。


在运维自动化体系里面,数据是一个非常核心且是承上启下的重要元素,它即可以反映运维服务的效率、故障比例、高可性,也可以衡量业务运维状态的稳定性、成本、速度、质量等。



而且在前文的最后部分,就有一个利用作业平台执行数据来挖掘运维价值的例子,因为和本文主题相关,所以也推荐给读者,这两个例子分别是关于运维人力价值和故障分析价值。


除此之外,怎样利用数据来提供运维团队的增值服务,本文通过几个实战例子来描述说明。


技术栈的选择

关于数据收集、处理和展示,业界比较常见的技术栈主要这几类:

第一类是著名的ELK,即 Elasticsearch、Logstash、Kibana(或者EFK,F 是 Fluentd 代替 Logstash,毕竟Logstash因性能问题所以口碑不咋的);

第二类是 Flume + Kafka + Storm,Java系的技术团队会比较倾向选用这套工具集;

还有一类比较少见的是用 Scribe 作为收集工具;


以上是主流的技术选型方案,但本文的重点不是介绍各种数据分析技术的优缺点,这

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值