运维知识
文章平均质量分 90
日常一些运维知识学习
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
马哥Linux运维 | Prometheus 告警规则生产级配置:50+ 核心指标与最佳实践(四)
本文介绍了Prometheus告警规则的最佳实践,包括50+核心指标配置与常见问题解答。主要内容涵盖:1) Prometheus与其他监控工具(Zabbix/Nagios)的区别;2) Recording Rules的性能优化作用;3) 告警疲劳的解决方案;4) 数据保留策略建议;5) Kubernetes集群监控方法;6) PromQL查询优化技巧;7) 高可用部署方案。文章还提供了自动化部署脚本、健康检查脚本和扩展阅读资源,帮助用户快速构建生产级监控系统。原创 2025-11-21 19:15:00 · 1378 阅读 · 0 评论 -
马哥Linux运维 | Prometheus 告警规则生产级配置:50+ 核心指标与最佳实践(三)
本文介绍了Prometheus告警规则的生产级配置与最佳实践,涵盖50+核心指标监控方案。主要内容包括:常见故障排查流程(告警未触发/发送、指标采集失败等)、高基数标签处理方法、变更灰度策略与回滚机制、自动化备份脚本实现。最佳实践部分重点阐述告警规则设计原则(添加for持续时间、Runbook链接)、避免高基数标签技巧、RecordingRules优化复杂查询、告警抑制配置防止风暴、定期故障演练方案、维护窗口静默规则设置,以及大规模场景下的联邦集群架构配置。文章提供了详细的诊断命令和解决方案,帮助运维人员构原创 2025-11-21 19:00:00 · 564 阅读 · 0 评论 -
马哥Linux运维 | Prometheus 告警规则生产级配置:50+ 核心指标与最佳实践(二)
本文介绍了Prometheus告警规则的最佳实践,包括其核心工作机制与性能优化策略。主要内容涵盖:1)PromQL查询引擎的执行流程与时间序列数据模型;2)告警状态转换机制及for参数的意义;3)Alertmanager的分组、抑制等告警处理流程;4)Prometheus自监控指标与关键告警规则示例;5)性能测试方法及调优建议,如调整抓取间隔、WAL压缩等参数。通过50+核心指标的监控实践,帮助运维人员构建稳定高效的告警体系,平衡响应速度与误报率。文章还提供了完整的性能基准测试方案与典型场景下的资源消耗数据原创 2025-11-20 17:48:19 · 1238 阅读 · 0 评论 -
马哥Linux运维 | Prometheus 告警规则生产级配置:50+ 核心指标与最佳实践(一)
本文介绍了Prometheus监控系统的生产级部署方案,包括适用场景、反模式警告、环境版本矩阵等。详细讲解了NodeExporter安装、Prometheus配置、告警规则设置和Alertmanager集成,提供完整的实施步骤和验证方法。文章强调适用于云原生和微服务监控环境,推荐8C16G配置支持10K+时间序列,并指出不适用于小规模环境或需要自动修复的场景。附有快速清单和关键脚本,帮助用户快速搭建完整的监控告警系统。原创 2025-11-20 17:47:26 · 622 阅读 · 0 评论 -
马哥Linux运维 | MySQL 慢查询分析与优化:从诊断到调优的实战手册
本文介绍了MySQL慢查询分析与优化的全流程方案。主要内容包括:启用慢查询日志配置方法、使用pt-query-digest工具分析日志、解读EXPLAIN执行计划、索引优化策略(联合索引/最左前缀/选择性原则)、SQL编写技巧(避免SELECT*/分页优化)、数据库参数调优建议,以及Prometheus监控告警配置。文章通过实际案例演示优化过程,将订单查询从5秒优化至50ms,并总结了10条最佳实践,包括定期分析慢查询、EXPLAIN先行、读写分离等。原创 2025-11-06 17:50:46 · 896 阅读 · 0 评论 -
马哥Linux运维 | 容器化部署实战:Docker Swarm 与 CI/CD 流水线的无缝集成
本文分享了团队通过Docker Swarm和CI/CD流水线优化微服务部署的实战经验。针对手动部署风险高、环境不一致、发布效率低等痛点,采用容器编排+自动化流水线方案,将部署时间从35分钟缩短到8分钟,失败率从15%降至0.3%。重点介绍了架构选型理由、分阶段CI/CD设计、Swarm Stack生产配置优化(滚动更新、健康检查、资源限制等)、一键部署脚本和监控告警体系。文章还展望了AIOps、GitOps等运维趋势,强调技术选型应注重适用性而非盲目追新,建议从非核心服务开始逐步实现容器化和自动化。原创 2025-10-23 17:43:12 · 1016 阅读 · 0 评论 -
马哥Linux运维 | Shell脚本编程的“十八般武艺“:提升运维效率的高级技巧
Shell脚本就像武侠小说中的内功心法——看似简单,实则博大精深。掌握这些高级技巧,不仅能让你的运维工作事半功倍,更能在关键时刻化险为夷。优秀的运维工程师不是会写脚本,而是知道什么时候写、怎么写、写到什么程度。如果你觉得这篇文章对你有帮助,欢迎:• 🌟本文,建立你的运维知识库• 💬留言分享你的Shell脚本技巧或踩坑经历• 🔄转发给需要的朋友,一起提升运维技能THE END!大家有推荐的公众号可以评论区留言,共同学习,一起进步。原创 2025-10-01 19:29:08 · 847 阅读 · 0 评论 -
马哥Linux运维 | KVM虚拟化环境部署与性能优化:从入门到生产实践的完整指南
本文介绍了KVM虚拟化技术在企业级环境中的实战应用。作为开源虚拟化解决方案,KVM凭借其高性能、高可靠性和成本优势,被Google Cloud、阿里云等主流云服务商广泛采用。文章详细解析了KVM架构原理、生产环境部署流程(包括硬件准备、网络配置等核心环节),并提供了性能优化、安全加固、自动化运维等高级技巧。通过真实故障案例分析,展示了KVM在数据库、Kubernetes等场景的最佳实践。最后展望了KVM与容器融合、硬件加速等前沿趋势,为IT运维人员提供了一套完整的虚拟化建设方案。原创 2025-09-08 18:21:59 · 1634 阅读 · 0 评论 -
马哥Linux运维 | Docker生产环境安全配置与最佳实践指南:从入门到企业级部署
【Docker生产环境安全配置指南】本文针对企业Docker容器安全风险,提供从基础到企业级的完整防护方案。关键内容包括:1)镜像安全(Alpine最小化镜像+多阶段构建+漏洞扫描);2)运行时防护(非root用户+资源限制+只读文件系统);3)高级安全(AppArmor/SELinux+Seccomp);4)企业实践(密钥管理+镜像签名+零信任架构)。原创 2025-09-01 17:48:14 · 1272 阅读 · 0 评论 -
InfoQ | Kafka 如何实现零停机迁移
AutoMQ推出KafkaLinking方案,实现Kafka到AutoMQ的零停机迁移。该方案通过双写机制和滚动升级策略,确保数据完整性和偏移量一致性。双写机制支持双向数据同步,滚动升级则分批迁移Producer和Consumer,避免业务中断。与传统MirrorMaker2相比,KafkaLinking能保留消息偏移量,支持无缝迁移。AutoMQ作为云原生Kafka发行版,已在GitHub开源,适用于云上实时数据平台。该方案简化了迁移流程,降低了运维复杂度,为Kafka架构演进提供了新思路。原创 2025-08-21 17:06:12 · 798 阅读 · 0 评论 -
马哥Linux运维 | 线上CPU 100%故障应急处理实战:3分钟内快速定位问题的终极指南
本文分享了电商网站CPU 100%故障的应急处理实战经验。通过top命令快速定位到Java进程占用89.5%CPU,利用jstack分析线程堆栈,发现OrderService.calculateDiscount方法的锁竞争问题。紧急方案包括限流、缓存和业务降级,根本解决方案是代码重构为异步化+细粒度锁。优化后CPU使用率从98%降至25%,响应时间从8-12秒提升到200-500ms。文章总结了5个黄金法则:建立分层监控、掌握定位工具链、制定应急预案、重视代码性能review和建立知识库。原创 2025-08-14 17:32:41 · 1003 阅读 · 0 评论 -
马哥Linux运维 | Linux文件查找、三剑客、正则表达式
本文介绍了Linux文件查找命令find的使用方法,包括基本语法和常见查找方式(名称、大小、类型、时间、用户、权限等),并详细讲解了处理动作选项(打印、删除、执行命令等)。同时介绍了三剑客工具grep、awk、sed中的grep命令,包括常用选项和正则表达式元字符的使用。文章还提供了多个find命令的实际应用示例和练习题,如查找特定条件的文件、备份文件管理、权限修改等。这些内容对Linux系统管理和文件操作具有重要参考价值。原创 2025-08-11 18:10:16 · 763 阅读 · 0 评论 -
马哥Linux运维 | 从零开始:Linux系统安装与分区最佳实践
1.规划先行:永远不要急着分区,先画出分区图2.预留空间:LVM至少保留20%空间用于扩容3.分离关键目录:/var、/tmp、/home独立分区4.备份重要数据:分区前务必备份重要文件5.测试验证:生产环境方案先在测试机验证。原创 2025-08-04 22:02:24 · 1227 阅读 · 0 评论 -
python | Github 7.4k star,一个强大的 Python 库--sh!
sh库是Python生态系统中一个专门用于执行系统命令的第三方库,由Andrew Moffat开发。该库的设计理念是将系统命令转化为Python函数,使得在Python程序中调用系统命令变得更加直观和优雅。sh库提供了更加简洁的API接口,大大简化了系统命令的调用过程。sh库的核心优势在于其独特的设计思路:将每个系统命令都视为一个可调用的Python函数对象。原创 2025-07-22 20:39:55 · 657 阅读 · 0 评论 -
马哥Linux运维 | Redis集群部署与性能优化实战
Redis集群部署与性能优化是一个系统工程,需要从硬件资源、系统配置、Redis参数等多个层面进行综合考虑。通过本文介绍的实战技术,运维工程师可以构建稳定、高效的Redis集群环境。关键要点包括:合理的集群架构设计、科学的性能优化配置、完善的监控告警体系,以及可靠的故障恢复机制。在实际生产环境中,还需要结合具体业务场景进行调优,持续监控和改进系统性能。这篇文章涵盖了Redis运维的核心技术点,代码示例丰富且实用,希望对您的运维工作有所帮助。文末福利THE END!原创 2025-07-13 21:42:40 · 484 阅读 · 0 评论 -
江大白 | AI项目部署必备,Docker 万字实战教程:从入门到掌握(建议收藏!)
在AI项目部署过程中,Docker的使用是一个必备的技能,而Docker 是一个开源的应用容器引擎,它允许开发者将应用以及依赖打包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。本文将带你从Docker的基本概念开始,一步步深入到实际应用。原创 2025-05-22 17:16:02 · 1551 阅读 · 0 评论 -
NLP奇幻之旅 | Redis快速入门(推荐阅读!)
Redis是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API,如Java, Python, PHP等。原创 2025-04-30 02:15:00 · 710 阅读 · 0 评论 -
写代码的中年人 | 使用 VLLM 部署 DeepSeek:基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南
最近,大语言模型(LLM)的部署已经成为 AI 开发者绕不开的核心技能。而 VLLM 作为一款高性能、低延迟的推理引擎,在大模型推理领域迅速崛起。今天,我就带大家从零开始,在 Ubuntu 22.04 + RTX 4090 + Docker 环境下,部署 DeepSeek模型,并让它跑起来!原创 2025-04-15 17:58:53 · 1791 阅读 · 0 评论 -
Linux运维技术之路 | Linux 运维高频 100 条命令,建议收藏!
📢 服务器宕机?网络故障?磁盘告警?99% 的 Linux 运维问题,都能用 这 100 条命令 轻松解决!不管你是 Linux 小白 还是 资深运维,这些命令都是 必备技能,看完直接实战!💪原创 2025-04-04 14:25:18 · 582 阅读 · 0 评论 -
马哥Linux运维 | Nginx面试40问(必须收藏!)
如题原创 2025-02-27 17:45:13 · 1634 阅读 · 0 评论 -
马哥Linux运维 | Linux grep命令全解析:高效文本搜索神器,一文搞懂用法与实战技巧!
Linux grep命令是一种非常常用的文本搜索工具,它可以在给定的文件中搜索匹配的字符串,并输出匹配的行。grep是全称“global search regular expression print”,可以识别正则表达式,并使用正则表达式进行搜索。原创 2025-01-03 17:55:05 · 872 阅读 · 0 评论 -
马哥Linux运维 | Linux用户管理终极指南:从基础到进阶,一篇就够,建议收藏!
Linux用户管理终极指南:从基础到进阶。超级详细~原创 2024-12-09 17:46:32 · 1456 阅读 · 0 评论 -
马哥Linux运维 | LVM实践全纪录
LVM实践全纪录,文章略长,推荐收藏!原创 2024-11-22 21:38:12 · 1082 阅读 · 0 评论 -
马哥Linux运维 | 深入理解Python多进程:从基础到实战
在Python中,多线程受到全局解释器锁的限制,多进程能更好地利用多核处理器,选择合适的并发编程方式可以提高程序的运行效率。通过合理的错误处理策略、使用logging和traceback记录错误信息,以及灵活运用调试工具与技术,可以更好地处理进程间的错误和调试工作,提高程序的稳定性和可靠性。总之,选择多进程可以让我们更好地利用计算资源,提高程序的运行效率,同时避免了一些多线程并发编程中的问题,是一种值得掌握的并发编程方式。通过合理设计进程之间的通信和同步机制,可以实现多进程之间的协同工作。原创 2024-06-06 22:13:02 · 946 阅读 · 0 评论 -
五角钱的程序员 | Kafka 是什么?
你是一个程序员,假设你维护了两个服务A和B。B 服务每秒只能处理 100 个消息,但 A 服务却每秒发出 200 个消息,B 服务哪里顶得住,分分钟被压垮。那么问题就来了,有没有办法让 B 在不被压垮的同时,还能处理掉 A 的消息?当然有,没有什么是加一层中间层不能解决的,如果有,那就再加一层。这次我们要加的中间层是 消息队列Kafka。原创 2024-05-12 20:52:12 · 1070 阅读 · 0 评论
分享