- 博客(7)
- 收藏
- 关注
原创 LLM模型在运维领域的应用
在云计算的世界里,系统变得越来越复杂,随之而来的是故障发生的频率也在增加。当故障发生时,我们需要运维工程师能够迅速地找出问题所在,并解决它,以减少对用户的影响。这就是所谓的故障根因分析,它是运维工作中至关重要的一环。这篇文章纯粹YY,并没有经过完整的实际测试(目前正在调)。在这里就抛砖引玉了,希望大家拍砖。
2024-03-26 11:18:26
1659
原创 【案例】MySQL table_open_cache配置过小导致thread running过高告警
mysql突然接到thread running过高的告警。分析监控指标并未发现明显异常。进入mysql执行发现大量SQL处于opening tables和closing tables状态。初步怀疑是table_open_cache 参数设置过小。紧接着调大table_open_cahe参数后,告警恢复正常。最终通过调整与参数,恢复异常告警。核心原因为参数配置过小,无法满足高并发场景下的查询访问。
2024-03-25 18:43:02
2003
1
原创 通过TF-IDF算法实现对运维告警信息特征提取
本文主要分享了在告警处理过程中其中一环——告警特征提取。通过从基础原理到具体实践,大致梳理了一下,仅用于感兴趣的童鞋入门哈。
2024-03-20 22:07:00
1246
1
原创 Apriori算法在运维告警关联分析场景中的应用
本章内容简要介绍了Apriori算法在运维告警合并场景中的应用,并结合案例进行了简单的演示。在实际应用中发现,通过Apriori算法能够显著改善告警合并的结果和效率。希望能给大家带来些许的灵感。
2024-03-20 15:42:01
623
1
原创 k8s卷快照技术探究
卷快照(Volume Snapshot)是一种在计算机系统中用于捕捉卷(Volume)当前状态的技术。通俗点来说就是为卷(volume)打一个快照,以便将来的某个时间点上能够恢复到该状态。k8s的卷快照主要包含三个CRD对象,分别为volumesnapshotclasses,volumesnapshotcontents,volumesnapshots。非常类似于PersistentVolume。:是用户对于卷的快照的请求。
2023-11-14 17:38:40
944
1
原创 云原生场景下如何实现k8s集群灾备
Kubernetes集群备份与恢复是关键的运维任务,确保应用程序和数据的可靠性和完整性。Velero作为一个强大的备份和恢复工具,可以帮助运维工程师轻松解决这一问题。通过Velero,我们能够快速备份和恢复Kubernetes集群中的应用程序和数据,保障业务的连续性。在实际应用中,结合Velero的工作流程和案例示例,我们可以更好地理解如何实现集群的快速备份与恢复,提高运维效率,降低风险。
2023-11-13 17:34:59
640
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅