- 博客(15)
- 收藏
- 关注
原创 Kubernetes开启CPU管理策略:pod使用独占核心
组件名称版本号Kubernetesv1.32.2Containerdv1.6.910.21.36.6kubectl控制机问题节点Kubernetes 的 CPU 管理策略演进揭示了一个重要趋势:基础设施正变得越来越"智能"。它不再仅仅提供资源,而是理解资源的特性、关联和最佳使用方式。从 SMT 感知到 NUMA 优化,从静态分配到拓扑感知调度,这些技术进步最终服务于同一个目标:让应用在云原生环境中获得可预测、高性能的运行体验。
2025-12-12 15:33:09
549
原创 Redis:查看RDB文件内容
软件名称版本信息Centos7.9Python3.9pip24.1.2通过这些排查方法,获取连接信息之后,跟开发确认是否正常,排除掉异常客户端后,重置数据的问题被解决了。
2025-12-02 17:52:09
194
原创 GPU服务器,Docker启动出现could not select device driver ““ with capabilities: [[gpu]].
启动GPU模型容器,出现下面错误。
2025-09-24 15:45:25
418
原创 跨云镜像迁移实战:阿里云 → 腾讯云
组件名称组件配置ACR标准版本,开启了外网访问TCR标准版本,开启了内网访问,并开启Private DNSCVM腾讯云服务器,可以公网访问到阿里云镜像仓库,腾讯云内网互通至此,镜像仓库跨云迁移已圆满完成,所有镜像均顺利同步至新环境。
2025-09-23 17:31:39
1069
原创 Linux常用命令之top:动态进程排查利器
top(进入交互模式) —> 按f/F —> 达成目标基本操作就是,数字上箭头/下箭头选择字段,d/空格来选择是否展示,右箭头表示字段顺序变更,回车确认,s表示默认排序那个字段,可以在指定字段。top 命令,作为 Linux 系统监控的“瑞士军刀”,其价值远不止于一个简单的任务管理器。它为我们提供了一个透过命令行洞察系统实时状态的窗口,是性能瓶颈分析、故障排查和资源管理的首要入口。
2025-09-11 14:23:28
1945
原创 Linux常用命令之ps:进程排查利器
0 1 00 2 0o:可以让用户自定义列输出信息,后面跟指标名称,使用分割。Linux 的 ps 命令就像一把瑞士军刀,看似简单,却蕴藏着强大的进程诊断能力。从查看系统全局状态 (ps aux) 到深入分析线程细节 (ps -eLF, ps -T),它为我们提供了从宏观到微观的完整视角。熟练掌握 ps 命令的各种组合,是每一位系统工程师、运维开发者和Linux爱好者必备的基础技能。希望本次复习能助您更高效地驾驭进程管理,从容应对系统挑战。
2025-08-25 15:10:48
1140
原创 Racher v2.12.0备份与恢复实战(Docker安装)
组件名称组件版本Rancherv2.12.0Docker26.1.3KernelSystemCentos 7.8综上所述,通过Docker数据卷管理机制,我们实现了Rancher Server的高效备份与恢复。这一方案不仅确保了关键数据的安全性和完整性,更为系统维护和灾难恢复提供了可靠保障。核心要义:备份是习惯,更是责任- 定期备份应成为系统运维的常态化工作恢复需谨慎- 任何恢复操作前务必确认备份文件有效性并停止相关服务流程需验证- 建议通过定期演练确保备份恢复流程的可靠性。
2025-08-20 16:45:57
1276
3
原创 Kubesphere闭源替代方案:Docker安装Rancher v2.12.0
本文介绍了在Kubesphere闭源后采用Rancher作为替代方案的环境部署过程。使用CentOS 7.8系统,通过阿里云yum源安装Docker 26.1.3,并配置数据目录。Rancher v2.12.0采用Docker容器部署,提供了国内和海外两种环境的安装命令,包括SSL证书配置、日志存储等参数设置。国内环境使用阿里云容器镜像加速,海外环境直接使用官方镜像。该方案适合对可用性要求较高的场景,如需更高可用性可考虑Rancher的HA方案。
2025-08-13 19:36:02
2359
原创 Alertmanager定时静默效果
至此,我们可以通过amtool工具进行alertmanager的定时silence,防止一些运维任务导致的告警,还要给运维打电话,可以美美睡觉了。
2025-08-04 18:08:08
842
原创 Kubernetes常用命令(持续更新)
在Kubernetes环境中,常常需要通过kubectl客户端进行集群信息、错误信息、配置信息的获取,这里会为大家列举出常用的操作命令,方便大家查看。** --ignore-daemonsets**:是否跳过daemonset资源,默认false。当存在冲突配置时,命令行的指令会覆盖文件中的配置。:可以获取到Pod重启之前的日志信息。:获取pod相关的详细信息。:获取指定行数的日志信息。:获取指定行数的日志信息。
2025-07-30 20:13:26
191
原创 Event-export+PrometheusAlert+飞书事件通知实战
本文介绍了基于阿里云ACK环境的Kubernetes事件监控方案,主要包括Event-exporter和PrometheusAlert两个组件的部署配置。Event-exporter负责采集Kubernetes集群事件,通过配置过滤规则将异常事件发送至飞书告警,部署包含RBAC权限、ConfigMap配置和Deployment。PrometheusAlert作为告警中心,提供飞书机器人接口和告警模板处理,支持多级别告警。方案实现了Kubernetes事件采集、过滤、告警的完整流程,适用于生产环境监控需求。
2025-07-28 12:02:40
636
原创 容器基础入门:Cgroup(容器资源限制)、linux Namespace(容器隔离)
摘要 本文介绍了Linux cgroupv2的基本概念和使用方法,包括创建cgroup子系统、设置资源限制以及测试进程加入控制的过程。通过实验演示了内存限制导致程序被kill的情况。同时探讨了Linux namespace的资源隔离机制,包括UTS隔离(主机名修改)、IPC隔离(进程通信隔离)和Mount隔离(挂载点隔离)的实现方法和验证过程。文章提供了详细的代码示例和操作步骤,并介绍了相关Linux工具如nsenter、ipcmk、ipcs和unshare的使用方法。这些技术可有效实现进程资源控制和隔离,
2025-07-25 15:25:19
1192
原创 飞书审批+Jenkins的站点更新自动化
摘要: 本文介绍了如何通过飞书审批与Jenkins集成实现自动化发版流程。首先在飞书创建自定义审批表单,配置多维表格维护站点信息,记录审批流程的definitionCode。随后在飞书开放平台申请企业自建应用,配置审批相关权限并订阅审批通过事件。最后通过Go语言开发服务监听飞书审批事件,获取审批实例详情后触发Jenkins任务执行发版操作,从而减少人工干预和误操作风险。文中包含详细的配置步骤、代码结构及关键接口调用方法。
2025-07-24 19:10:02
2088
原创 Elasticsearch节点下线操作
本文介绍了Elasticsearch集群中安全下线节点的操作流程。首先列出包含11个节点的集群环境,需要下线node6、node7、node8三个节点。操作步骤包括:1)通过API设置分配规则排除待下线节点,触发分片数据迁移;2)监控节点数据量直至迁移完成;3)停止节点进程;4)还原分配策略避免影响后续操作。文中提供了完整的curl命令和参数说明,包括节点匹配方式(_name/_ip/_host)和集群设置API的使用方法。该流程可确保节点下线时数据安全迁移,不影响集群正常运行。
2025-07-24 15:49:19
393
原创 ELK方案(包含kafka)
本文介绍了基于ELK 8版本(Elasticsearch、Logstash、Kibana)和Filebeat的日志收集系统搭建方案。系统架构包含3节点ES集群(10.14.19.13/14/68)、3个Logstash节点(10.61.19.3/9/80)和CKafka(10.14.19.6)。重点展示了Filebeat的配置细节,包括容器日志采集路径、内存队列设置(20480事件容量)、Kafka输出配置(动态topic路由、LZ4压缩)以及Kubernetes元数据处理。Kibana通过Docker C
2025-07-24 14:43:53
691
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅