最完整的Kured使用指南：Kubernetes节点自动重启与安全更新实战-优快云博客

最完整的Kured使用指南：Kubernetes节点自动重启与安全更新实战

【免费下载链接】kured 一个用于Kubernetes集群的自动重启守护进程，用于应用节点上的安全更新。 - 功能：节点重启；安全更新；Kubernetes集群管理。 - 特点：与Kubernetes无缝集成；支持多种安全更新策略；易于使用；高度可定制。项目地址: https://gitcode.com/gh_mirrors/ku/kured

引言：你还在手动重启Kubernetes节点吗？

在Kubernetes集群管理中，节点更新和重启是保障系统安全的关键环节，但手动操作不仅耗时费力，还可能因操作失误导致业务中断。想象一下，当你的集群拥有数十甚至上百个节点时，逐个登录节点执行重启命令是怎样的场景？更糟糕的是，如果在业务高峰期进行重启，可能造成不可挽回的损失。

读完本文你将获得：

掌握Kured（KUbernetes REboot Daemon）的核心工作原理
学会在生产环境中部署和配置Kured
定制符合业务需求的节点重启策略
解决常见的Kured实战问题
通过可视化图表理解Kured的内部机制

什么是Kured？

Kured是一个专为Kubernetes集群设计的自动重启守护进程，用于安全应用节点更新。它通过监控节点上的重启哨兵文件（如/var/run/reboot-required）或执行哨兵命令，在确保业务连续性的前提下，自动协调节点重启流程。

核心功能

功能	描述
自动检测重启需求	监控哨兵文件或执行命令判断是否需要重启
安全重启协调	通过分布式锁机制确保一次只重启一个节点
灵活的时间窗口	支持指定重启时间段和日期，避免业务高峰期
多维度阻塞策略	基于Prometheus告警、特定Pod存在等条件阻止重启
完整的生命周期管理	包含节点封锁、驱逐Pod、重启、解封等全流程
可定制通知	支持Slack等渠道发送重启状态通知

与Kubernetes的无缝集成

Kured作为DaemonSet部署在每个节点上，通过Kubernetes API实现以下功能：

使用nodeName识别当前节点
通过DaemonSet注解实现分布式锁
调用Kubernetes API执行节点封锁（cordon）和驱逐（drain）操作
使用Taint/Toleration机制控制Pod调度

安装部署：5分钟上手Kured

环境要求

组件	版本要求
Kubernetes	1.19+
Go	1.16+ (编译源码时)
容器运行时	Docker/Containerd

快速部署

# 克隆仓库
git clone https://gitcode.com/gh_mirrors/ku/kured.git
cd kured

# 创建RBAC权限
kubectl apply -f kured-rbac.yaml

# 部署DaemonSet
kubectl apply -f kured-ds.yaml

验证部署

# 检查Pod状态
kubectl get pods -n kube-system -l name=kured

# 查看日志
kubectl logs -n kube-system daemonset.apps/kured -f

核心配置详解

Kured提供了丰富的配置选项，可通过命令行参数或环境变量进行设置。以下是常用配置的详细说明：

基础配置

参数	环境变量	描述	默认值
`--node-id`	`KURED_NODE_ID`	节点标识符，通常从`spec.nodeName`获取	必须设置
`--reboot-sentinel`	`KURED_REBOOT_SENTINEL`	重启哨兵文件路径	`/var/run/reboot-required`
`--period`	`KURED_PERIOD`	检查周期	`1h`
`--reboot-method`	`KURED_REBOOT_METHOD`	重启方式（`command`/`signal`）	`command`
`--reboot-command`	`KURED_REBOOT_COMMAND`	重启命令	`/bin/systemctl reboot`

高级配置

# kured-ds.yaml 片段
command:
  - /usr/bin/kured
  - --reboot-sentinel=/sentinel/reboot-required
  - --period=30m
  - --reboot-days=mon,fri
  - --start-time=02:00
  - --end-time=04:00
  - --time-zone=Asia/Shanghai
  - --blocking-pod-selector=runtime=long,cost=expensive
  - --prometheus-url=http://prometheus.monitoring.svc.cluster.local
  - --alert-filter-regexp=^RebootRequired$

Kured工作原理

重启流程

mermaid

分布式锁机制

Kured使用DaemonSet注解实现分布式锁，确保集群中一次只有一个节点重启：

mermaid

实战配置：打造符合业务需求的重启策略

1. 业务低峰期重启

# 仅在每周一和周四的凌晨2-4点重启
command:
  - --reboot-days=mon,thu
  - --start-time=02:00
  - --end-time=04:00
  - --time-zone=Asia/Shanghai

2. 基于Prometheus告警的阻塞策略

# 当存在特定告警时阻止重启
command:
  - --prometheus-url=http://prometheus.monitoring.svc.cluster.local
  - --alert-filter-regexp=^HighCPUUsage|^MemoryPressure$
  - --alert-firing-only=true

3. 关键业务Pod保护

# 存在这些标签的Pod时阻止重启
command:
  - --blocking-pod-selector=app=payment,env=prod
  - --blocking-pod-selector=app=order-service

4. 多节点并发重启（高级特性）

# 允许同时重启2个节点
command:
  - --concurrency=2

监控与告警

内置指标

Kured暴露Prometheus指标在8080端口：

指标名称	描述
`kured_reboot_required`	节点是否需要重启(1=需要,0=不需要)

配置Prometheus监控

# Prometheus ServiceMonitor示例
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: kured
  namespace: monitoring
spec:
  selector:
    matchLabels:
      name: kured
  endpoints:
  - port: metrics
    interval: 30s

通知配置

# Slack通知配置
command:
  - --notify-url=slack://token@channel
  - --message-template-reboot=Node %s is rebooting due to security updates

常见问题与解决方案

Q1: 节点重启后Pod无法调度回来？

A: 检查是否配置了--lock-release-delay参数，确保重启完成后释放锁并解封节点：

command:
  - --lock-release-delay=30m  # 给予节点足够的恢复时间

Q2: 如何强制重启忽略阻塞条件？

A: 使用--force-reboot参数，但需谨慎使用：

command:
  - --force-reboot=true  # 即使驱逐失败也强制重启

Q3: Kured自身更新如何处理？

A: Kured支持滚动更新，更新DaemonSet时会自动协调重启顺序：

kubectl set image daemonset/kured -n kube-system kured=ghcr.io/kubereboot/kured:1.20.0

高级定制：扩展Kured功能

自定义重启哨兵命令

除了监控文件，还可以通过命令判断是否需要重启：

command:
  - --reboot-sentinel-command="apt list --upgradable | grep -q security"

实现自定义阻塞检查器

Kured提供RebootBlocker接口，可通过以下步骤扩展：

实现IsBlocked()方法：

type MyCustomBlocker struct {
    // 自定义属性
}

func (b *MyCustomBlocker) IsBlocked() bool {
    // 自定义阻塞逻辑
    return checkSomeCondition()
}

在主流程中注册阻塞器：

blockCheckers = append(blockCheckers, &MyCustomBlocker{})

总结与展望

Kured作为Kubernetes集群的安全更新利器，通过自动化节点重启流程，大大降低了运维复杂度。其核心优势在于：

安全性：严格的节点封锁和Pod驱逐流程
灵活性：丰富的配置选项适配不同业务场景
可靠性：分布式锁机制确保集群稳定性

随着云原生技术的发展，Kured未来可能会集成更多高级特性，如：

与集群自动扩缩容(Cluster Autoscaler)的协同
基于机器学习的重启风险评估
跨集群的重启协调机制

附录：完整配置参数表

参数类别	参数名称	描述
基本配置	`--node-id`	节点标识符
	`--reboot-sentinel`	重启哨兵文件路径
	`--period`	检查周期
时间窗口	`--reboot-days`	允许重启的星期几
	`--start-time`	每日允许重启开始时间
	`--end-time`	每日允许重启结束时间
	`--time-zone`	时区设置
重启策略	`--force-reboot`	是否强制重启
	`--drain-grace-period`	Pod优雅终止时间(秒)
	`--drain-timeout`	驱逐超时时间
阻塞条件	`--blocking-pod-selector`	阻塞Pod选择器
	`--prometheus-url`	Prometheus地址
	`--alert-filter-regexp`	告警过滤正则
分布式锁	`--lock-ttl`	锁超时时间
	`--lock-release-delay`	锁释放延迟
	`--concurrency`	并发重启节点数
通知配置	`--notify-url`	通知URL
	`--message-template-*`	通知消息模板

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考