自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 Linux常见服务与云原生运维常见服务报错与解决方案

日均处理日志量可达TB级。如果使用的是私有仓库,确保 Kubernetes 配置了正确的凭证(通过 Kubernetes Secret 或 Docker Config)。在 GitLab CI/CD 流水线中,推送镜像到 Docker registry 时,可能会遇到认证失败或推送超时的问题。优化 Dockerfile,避免频繁无变化的步骤,比如将频繁变化的命令移至 Dockerfile 的后面。确保 Dockerfile 中的路径、文件名和基础镜像都正确,并且必要的环境变量已正确配置。

2025-03-18 21:20:54 1419

原创 Prometheus部署联邦模式

Prometheus 是一个开源的监控系统,而联邦模式是其一种特殊的工作模式。在这种模式下,多个 Prometheus 服务器之间可以进行协作。具体来说,一个主 Prometheus 服务器可以从其他从 Prometheus 服务器拉取( scrape )数据。这些从 Prometheus 服务器通常负责监控不同级别的服务或者不同区域的系统。通过联邦模式,可以构建分层的监控架构。例如,在一个大型组织中,底层的各个子系统可能各自有其专属的 Prometheus 服务器进行本地监控数据的收集,而上层的主 P

2025-05-28 15:00:15 368 1

原创 Prometheus服务扩展与Prometheus黑盒监控

在现代分布式系统中,监控与告警至关重要,Prometheus 作为一款开源、高性能的监控系统,被广泛应用于各类场景。本文将深入介绍 Prometheus 服务扩展的各种实践,包括 Node Exporter 黑白名单配置、Prometheus Server 端的白/黑名单与标签管理、Blackbox Exporter 黑盒监控、服务发现、联邦部署以及 VictoriaMetrics 远端存储。

2025-05-28 14:43:47 768

原创 Prometheus学习之pushgateway和altermanager组件

在深入探索 Prometheus 的过程中,我们往往会对其核心组件有较为深入的了解,但与此同时,一些辅助组件也发挥着不可或缺的作用,它们就像是为整个监控系统增添羽翼的利器,让监控功能得以进一步拓展和完善。今天,我们就来聚焦于 Prometheus 生态系统中的两个重要组件 ——Pushgateway 和 Alertmanager,深入剖析它们的工作原理、应用场景以及与整个 Prometheus 监控体系的协同合作方式,一同揭开它们在监控领域所蕴含的巨大潜力和价值,为你的技术监控之旅增添新的助力和洞察。

2025-05-28 14:15:56 923

原创 Prometheus + Grafana 监控常用服务

Prometheus监控常见服务的原理主要包括服务暴露指标和Prometheus抓取指标。一方面,被监控服务通过自身提供的监控接口或借助Exporter将服务的性能指标等数据以HTTP协议的方式暴露出来;另一方面,Prometheus根据配置好的采集任务,定期去拉取这些服务暴露的指标数据,将其存储在本地的时间序列数据库中,之后用户就可以通过PromQL查询来分析这些数据,实现对服务的监控。

2025-05-28 10:16:30 1130

原创 Prometheus监控从部署到入门

Prometheus是一个开源系统监控和警报工具包,最初由SoundCloud构建。自2012年成立以来,许多公司和组织都采用了Prometheus,该项目拥有非常活跃的开发人员和用户社区。它现在是一个独立的开源项目,独立于任何公司进行维护。为了强调这一点,并澄清该项目的治理结构,Prometheus于2016年加入云原生计算基金会(CNCF),成为继Kubernetes(k8s)之后的第二个托管项目。

2025-05-28 09:21:09 972

原创 基于 Operator 部署 Prometheus 实现 K8S 监控

在 Kubernetes 集群的运维管理中,监控是必不可少的一环。Prometheus 作为一款优秀的开源监控系统,结合 Operator 方式进行部署,可以更便捷地实现对 K8S 的监控。这种自动监控 K8S 集群的能力,使得基于 Operator 部署 Prometheus 成为一种高效、便捷且符合 Kubernetes 原生理念的监控解决方案,极大地降低了在 Kubernetes 环境中搭建和维护监控系统的复杂性,同时也提高了监控系统的可靠性和可扩展性,以下是基于 Operator 部署 Prom

2025-05-27 11:05:55 808

原创 Kubernetes 存储卷详解与实战

在实际应用中,我们可以根据具体的业务需求和技术场景,综合运用这些存储卷类型和存储资源。例如,对于临时数据存储和容器间共享,emptyDir 是简单高效的选择;若需要访问宿主机资源或同步时区,hostPath 则非常方便;而多 Pod 跨节点共享数据时,NFS、CephFS 和 RBD 则提供了强大的分布式存储解决方案。同时,合理运用 ConfigMap 可以使应用配置管理更加灵活和高效。对于持久化存储需求,PV、PVC 和 SC 相互配合,能够实现存储资源的灵活管理、分配和动态扩展。

2025-05-27 10:53:50 991

原创 K8S Pod调度方法实例

以下是一篇面向企业用户、兼具通俗易懂和实战深度的 Kubernetes Pod 调度方法详解博文大纲与正文示例。全文采用“图文(代码块)并茂 + 问答穿插 + 类比”方式,模拟了真实终端操作及输出,便于读者快速上手。

2025-05-27 09:41:44 1109

原创 深入理解 CoreDNS 在 Kubernetes 中的应用 —— 从原理到实践

在 Kubernetes(K8s)集群中,服务发现机制是核心组件之一,而 DNS 服务承担着至关重要的作用。从 kube-dns 到 CoreDNS 的演进,不仅优化了架构,更带来了灵活性与可扩展性。本文将深入剖析 CoreDNS 在 K8s 中的工作原理、实际应用案例,并通过多个真实的企业级场景配置示例,帮助读者全面理解并掌握 CoreDNS 的部署与运维。

2025-05-27 09:09:09 921

原创 深度解析 K8S Pod 控制器,从原理到企业实践

Kubernetes(简称 K8S)在容器编排领域已经成为事实标准,而在它的众多核心组件中,Pod 控制器扮演着至关重要的角色。本文将带你深入理解常用的几种 Pod 控制器(Deployment、StatefulSet、DaemonSet、Job、CronJob)的原理和应用场景,并结合企业实际环境中的使用案例,配合 YAML 配置和命令行操作全过程,帮助你真正掌握这些工具的实战应用。

2025-05-27 08:48:12 714

原创 修改 K8S Service 资源类型 NodePort 的端口范围

通过修改 kube-apiserver 的参数,我们可以灵活自定义 NodePort 的端口范围,满足实际业务需求。修改方式:编辑 kube-apiserver 配置文件应用修改:移动资源清单触发重启📌 建议根据实际情况合理设定端口范围,避免与系统服务冲突。

2025-05-26 17:26:40 567

原创 Kubernetes Service 类型与实例详解

Kubernetes 的 Service 是集群内外部通信的核心组件,它通过固定 IP 和负载均衡机制,将动态变化的 Pod 抽象为稳定的服务入口。本文将从 Service 的核心类型、适用场景、企业真实案例 三个维度展开,结合通俗的比喻和代码示例,帮助读者深入理解其设计哲学与实践应用。

2025-05-26 17:21:41 690

原创 Kubernetes在线练习平台深度对比:KillerCoda与Play with Kubernetes

Kubernetes在线练习平台的发展为学习者提供了前所未有的便利。KillerCoda和Play with Kubernetes作为两个主流平台,各有其独特优势和适用场景。KillerCoda凭借其预配置环境、场景化学习和实时反馈机制,成为Kubernetes认证备考和系统化学习的理想选择;而Play with Kubernetes则凭借其轻量级环境和自由实验特性,为快速验证概念和探索底层原理提供了良好支持。如果目标是获得CKA、CKAD等认证,或系统掌握Kubernetes技能,

2025-05-20 13:58:09 539

原创 用kompose将docker-compose文件转换为K8S资源清单

Kompose 是什么?它是一个转换工具,可将 Compose (即 Docker Compose)所组装的所有内容转换成容器编排器(Kubernetes 或 OpenShift)可识别的形式。更多信息请参考 Kompose 官网。

2025-05-08 10:41:52 1085

原创 裸机 Kubernetes 集群负载均衡器:MetalLB 深度解析与实战指南

MetalLB 是一个专为裸机 Kubernetes 集群设计的开源负载均衡器,通过标准路由协议(如 ARP/NDP 或 BGP)实现外部流量的接入。

2025-05-04 20:07:05 946

原创 大语言模型(LLM)应用开发平台Dify详细使用

Dify 是一个开源的大语言模型(LLM)应用开发平台,融合了后端即服务(Backend as Service)和 LLMOps 理念,旨在简化和加速生成式 AI 应用的创建、部署和管理,使开发者能够快速搭建生产级的 AI 应用,并让非技术人员也能参与到 AI 应用的定义和数据运营过程中。以其强大的功能、直观的界面和灵活的部署方式,为 AI 应用开发带来了全新的体验,在降低开发门槛的同时,也为开发者提供了更多的创新空间和可能性。Dify 也是一款创新的智能生活助手应用,旨在为您提供便捷、高效的服务。通过人工

2025-04-30 12:49:19 1221

原创 二进制部署Kubernetes1.32.4最新版本高可用集群及附加组件

在云原生技术席卷全球的今天,Kubernetes(K8s)已成为容器编排领域的事实标准。当大家都习惯了kubeadm、kubeasz等自动化工具一键部署的便利时,选择通过二进制方式手动搭建K8s集群更像是一场"知其然亦知其所以然"的深度修行。这种方式将带您穿透抽象层,直面etcd的分布式存储机制、kube-apiserver的RESTful接口设计、kubelet与CRI的交互细节,以及各个核心组件间的TLS双向认证体系。本文将还原最原始的K8s部署逻辑,从零开始构建一个符合生产环境要求的高可用集群。

2025-04-23 22:57:43 776

原创 Rook 部署 Ceph 集群及 Kubernetes 存储对接实战

Rook 是一款开源的云原生存储编排器,专为 Kubernetes 设计,旨在实现 Ceph 分布式存储系统的自动化部署与管理。它通过 Kubernetes Operator 框架,将 Ceph 的复杂存储管理任务简化为一系列自动化流程,使存储服务具备自我管理、自我扩展和自我修复的能力。Rook 与 Ceph 的结合,为 Kubernetes 提供了文件、块和对象三种存储类型的支持,满足了不同应用场景下的存储需求。Rook 项目由云原生计算基金会(CNCF)托管,是毕业级项目,具有高度的稳定性和可靠性。

2025-04-22 21:50:23 1054

原创 基于kubernetes1.23.17容器化部署RuoYi全栈项目手册

本文档完整适配主机名为master231/worker232/worker233的K8S集群环境,所有密码资源统一使用。使用账号:admin/caofacan2005 登录。,部署过程已通过实际环境验证。

2025-04-20 10:47:22 504

原创 K8S运维实战之集群证书升级与容器运行时更换全记录

通过本次双轨制运维改造:建立证书全生命周期管理体系,消除因证书过期导致的集群故障风险完成容器运行时技术栈升级,为后续Kubernetes版本升级铺平道路形成标准化运维操作手册,包含7类异常场景的应急处置方案后续计划:3周内完成全量Worker节点运行时迁移建设证书过期主动告警机制开展containerd调优专项工作【操作注意要点】证书更新后必须重启关联系统服务(apiserver等)Containerd配置需统一镜像仓库地址避免拉取失败生产环境建议采用Ansible进行批量节点操作。

2025-04-15 20:26:36 1176

原创 基于Kubeadm实现K8S集群扩缩容指南

缩容注意事项确保所有非DaemonSet Pod已被驱逐,避免业务中断。重置节点后需清理残留数据,防止敏感信息泄露。扩容注意事项Token有效期:默认24小时,--ttl 0设置为永久有效。确保新节点与Master网络互通,防火墙放行6443端口。常见问题排查节点无法加入:检查Token有效性、时间同步、网络连通性。节点状态非Ready:等待网络插件(如Calico)自动配置,检查kubelet日志:journalctl -u kubelet -f

2025-04-10 20:46:01 1347

原创 真实企业级K8S故障案例:ETCD集群断电恢复与数据保障实践

备份策略:必须遵循3-2-1原则(3副本、2种介质、1个离线)3-2-1原则的落地实现# 多介质备份示例(本地磁盘+对象存储+磁带)3副本:本地磁盘(SSD)、AWS S3 Glacier、LTO-8磁带2种介质:电子介质(云存储)+物理介质(磁带)1个离线:每周人工更换磁带并转移至防爆保险柜备份生命周期管理# 自动清理旧备份(保留策略)热备份保留7天冷备份保留30天归档备份保留5年断电防护:UPS容量需按实际负载的150%配置数据验证:每次备份后必须执行监控覆盖。

2025-04-10 09:39:38 1182

原创 运维网络排查工具介绍与使用

在一年半的运维实践中,最常遇到的难题往往是故障定位不准确。多工具互补:抓包工具适合数据层细查,而 telnet、ping 等工具则快速验证网络连通性;ss 和 nc 可以进一步验证端口和进程状态。结合使用能更快定位问题。日志与数据包同步:在排查过程中,总要和系统日志、应用日志相结合,确认是否存在策略更新、应用异常等因素。学习与积累:每次故障处理后,我都会总结经验,建立一份常见故障及处理方案的文档,以便快速响应类似问题。这不仅提高了解决问题的效率,也让我对网络协议和各工具的使用有了更深的理解。

2025-03-26 22:41:21 1162

原创 使用 Ansible 维护中小互联网企业 55 + 台服务器的实战经验

通过这一年半的运维经验,我深刻体会到了 Ansible 在服务器维护中的强大功能和重要性。它不仅提高了我的工作效率,还降低了人为失误的风险,保障了业务的稳定性。同时,也让我在自动化运维、DevOps 流程和安全管理等方面有了更深入的理解和实践经验。

2025-03-26 22:26:30 680

原创 传统应用容器化迁移实践

在过去的运维工作中,某企业一直依赖于传统的物理机和虚拟机部署方式。资源利用率低:物理机和虚拟机资源分配固定,导致资源利用率普遍偏低,部分服务器长期处于高负载状态,而另一些服务器却闲置。部署复杂且耗时:每次应用部署都需要手动配置环境,耗时长且容易出错,尤其是在高峰期的紧急部署中,效率问题尤为突出。扩展性差:面对业务高峰期的流量波动,传统的垂直扩展方式无法快速响应,导致资源浪费和用户体验下降。

2025-03-26 22:05:11 1037

原创 企业级Linux服务器初始化优化全流程

通过以上系统化配置,某电商平台服务器稳定运行时间从89%提升至99.99%,运维效率提升40%。记住:没有放之四海皆准的配置,所有优化都要以实际业务监控数据为依据!本文基于某电商平台百万级并发服务器的真实调优案例整理,所有操作均在Rocky Linux8.5验证通过,不同发行版请注意命令差异。:某金融公司新采购的服务器因未做安全加固,上线2周后遭SSH爆破入侵。:修复CVE-2021-4034等12个高危漏洞,系统漏洞减少83%:同步误差从±300ms降至±0.5ms。:某直播平台优化后支撑5万并发推流。

2025-03-26 21:48:34 454

原创 Harbor镜像仓库迁移与高可用集群搭建&&HTTPS实现实战指南

本次技术实践采用基于Harbor的高可用架构设计,同时构建跨数据中心的镜像同步机制,现就架构方案与实施要点进行技术复盘。在大规模迁移场景中,合理运用Harbor的智能化GC与分布式复制能力,可使PB级仓库迁移效率提升300%以上,为云原生转型提供坚实基础设施保障。这时候我们的高可用架构已经搭建完成了,我们只需要同步一下两个harbor的镜像仓库的镜像数量就可以了。通过本文方案,可实现企业级镜像仓库的无缝迁移与高可用保障,支撑容器化业务的稳定运行。进入"项目" → "新建项目",输入项目名称(如。

2025-03-24 21:21:18 1342

原创 企业磁盘管理实战:常见问题与高效解决方案

测试服务器运行多个内存密集型应用时,物理内存耗尽,系统频繁触发Swap交换机制。由于Swap分区不足,测试任务卡顿甚至中断,但物理内存无法临时扩容,需快速缓解内存压力。遵循“内存≤8G时Swap=1-1.5倍内存,内存>8G时Swap≤8G”原则,避免过度依赖Swap影响性能。初步排查发现磁盘空间或inode耗尽,需快速定位并清理大文件。通过上述方案,可系统性解决企业级磁盘管理中的高频问题,保障业务稳定运行。,单文件达10G,系统盘空间告急。需保证日志路径不变,且业务不中断。定位占用进程,释放资源。

2025-03-22 17:46:18 286

原创 K8S遇到过的比较深刻的Pod问题

通过以上措施,广告投放服务的Pod驱逐问题得到了有效解决。建议在日常运维中,定期检查Pod资源配额和驱逐策略,确保系统在高负载情况下能够稳定运行。凌晨的机房,咖啡已经凉透。看着逐渐平稳的监控曲线,突然想起前辈的话:"K8s故障就像冰山,你看到的Pod异常只是露出水面的一角。" 下次大促前,或许我们该在资源限制里多留20%的缓冲,就像给代码写注释一样——不是为了当下,而是为了那个在深夜紧急处理故障的,未来的自己。

2025-03-21 19:07:41 1172

原创 Docker与K8S是什么&该怎么选?

Docker和K8S就像螺丝刀和电动工具箱:前者简单直接,后者功能强大但复杂。

2025-03-21 17:47:46 1142 2

原创 zookeeper&nacos&kafka之间的联系

ZooKeeper与Kafka:经典组合但正在解耦,理解其协作机制有助于优化现有集群。ZooKeeper与Nacos:非替代关系,而是互补。选择时需权衡一致性、易用性和生态兼容性。架构设计:没有银弹,需结合团队技术栈、业务场景和长期运维成本综合决策。

2025-03-19 22:24:22 1277

原创 Zookeeper 集群部署与管理实践

Zookeeper 是 Apache 基金会开源的一个顶级项目,主要用于分布式集群的协调服务。其应用场景包括配置中心、注册中心、服务发现等。Zookeeper 作为分布式系统的协调服务,在企业中有着广泛的应用。通过合理的配置和管理,可以确保 Zookeeper 集群的稳定运行和高可用性。在部署和使用 Zookeeper 集群时,需要注意网络配置、防火墙设置、节点数量等关键因素,以确保集群的可靠性和性能。

2025-03-19 22:14:09 1027

原创 Kafka集群部署实战

Kafka 作为一种高性能的分布式消息队列系统,在企业中有着广泛的应用。通过合理的配置和管理,可以有效地利用 Kafka 的特性,满足企业对大规模数据流处理的需求。在部署和使用 Kafka 集群时,需要注意网络配置、主机名解析等问题,以确保集群的稳定运行。

2025-03-19 22:03:57 1022

原创 Nacos集群部署与高可用架构实战指南

在微服务架构中,配置管理和服务发现是至关重要的。Nacos 作为一款开源的动态配置和服务发现工具,能够帮助我们实现这些功能。本文将详细介绍如何部署 Nacos 集群,并结合 HAProxy 和 Keepalived 实现高可用。本文详细介绍了如何部署 Nacos 集群,并结合 HAProxy 和 Keepalived 实现高可用。通过以上步骤,我们能够确保在生产环境中 Nacos 的稳定运行,为微服务架构提供可靠的配置管理和服性能调优参数1. JVM参数优化# 修改bin/startup.sh。

2025-03-19 21:20:03 878

原创 关于Docker是否被淘汰&虚拟机实现连接虚拟专用网络&Ubuntu 22.04 LTS部署Harbor仓库全流程

1.今天的第一个主题:第一个主题是关于Docker是否真的被K8S弃用,还是可以继续兼容,因为我们知道在去年的时候,由于不可控的原因,docker的所有国内镜像源都被墙了,再加上K8S自从V1.20之后,宣布启用docker作为唯一的容器管理工具,很多人都觉得Docker被启用了,那么接下来我来简单阐述一下我自己的观点。

2025-03-19 20:48:32 1365 3

原创 传统服务部署、虚拟化部署与云原生部署资源消耗对比与优化指南

定义:直接运行于物理服务器或基础Linux操作系统环境,无虚拟化层隔离特点资源独占(CPU/内存/磁盘)部署流程简单但扩展困难典型场景:单一业务高负载场景(如数据库服务器)# 示例:传统部署的top命令输出(物理机资源独占)初创企业:优先采用云原生方案(如Serverless),避免前期硬件投入传统行业:逐步将非核心业务迁移到虚拟化平台互联网公司:全面拥抱Kubernetes体系,建立CI/CD流水线关键业务系统:保留物理机部署保证性能稳定性# 资源分配决策流程图(伪代码)

2025-03-18 20:20:42 1070

原创 ansible学习自用笔记

Ansible是一个自动化统一配置管理工具,自动化主要体现在Ansible集成了丰富模块以及功能组件,可以通过一个命令完成一系列的操作,进而能减少重复性的工作和维护成本,可以提高工作效率。功能描述配置管理自动化系统、软件、服务的安装和配置,确保多主机间配置一致性。应用部署自动化应用程序的部署和版本管理,包括支持滚动更新和回滚。任务自动化在多主机上并行执行任务,如文件操作、服务重启、软件更新等。多主机管理支持跨平台管理(Linux、Windows、macOS),可根据主机组批量执行任务。基础设施即代码。

2025-01-15 14:43:03 376

转载 kylin V10 SP2 OR SP3安装zabbix

麒麟系统V10安装Zabbix6.0详细步骤_麒麟系统安装zabbix-优快云博客

2025-01-08 18:46:18 68

原创 Nginx+keepalived高可用自用笔记

负载均衡和高可用性常常一起使用,以确保系统不仅能处理大量并发请求,而且在任何单点故障发生时都能保持正常运行。例如,负载均衡可以在多台冗余服务器之间分发请求,而高可用性机制保证如果某个服务器故障,系统能自动切换到其他服务器。总结来说,负载均衡优化系统性能和流量分配,高可用性则保证系统的容错性和持续服务能力。:负载均衡通常依赖于代理、负载均衡器、DNS等技术,而高可用性则通过冗余、故障转移、数据备份等技术实现。:负载均衡的目的是优化流量分配,提高系统处理能力,而高可用性的目的是确保系统在故障时仍能正常运行。

2024-12-24 21:49:20 877

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除