Kafka 系列 —(36)Kafka SRE 运维 SOP

目录

1.角色与职责划分(R&R)

Platform SRE(Kafka 运营方)

应用团队(微服务 / IoT / 数据平台)

安全团队

2. Kafka 日常巡检 Checklist

Daily Check(日巡)

Weekly Check(周巡)

3.监控与报警体系(必配)

核心指标分类(SRE 必监控)

告警级别

4. Topic / ACL / Quota 变更 SOP

Topic 变更流程(创建/删除/扩分区)

Step 1. 应用团队提申请

Step 2. SRE 执行 impact 分析

Step 3. 通过 CI/CD 自动创建

ACL 变更 SOP

Quota 变更 SOP

4. Broker 运维流程

Broker 扩容流程(最重要的运维动作)

Broker 下线流程

滚动重启(安全顺序)

6. 存储运维(磁盘)

磁盘压力处理

日志清理检查

常用优化

7. 再均衡 & Leader 选举 SOP

分区重分配 SOP

首选 leader 选举 SOP

8. 故障处理 SOP(最关键部分)

P1 事件(必须 5 分钟内响应)

URP(Under Replicated)出现

Controller 不断重启/频繁选举

消费者 lag 爆增(IoT 场景高频)

Broker 磁盘满

9.安全治理 SOP(ACL / SASL / TLS)

必须启用:

定期审计:

10. 灾备与数据恢复 SOP

数据级灾备(MirrorMaker 2)

11. Kafka 版本升级 SOP

「安全升级」流程(Rolling Upgrade)

12.Kafka Connect / Schema Registry 运维

Kafka Connect SOP

13.常用命令与自动化脚本

常用命令包(kafka-cli-ops.sh)


Kafka 内部 SRE 运维 SOP(标准操作流程)——用于公司内部运维体系(支持 Zookeeper 与 KRaft 双模式)。 结构包含日常巡检、变更、故障处理、扩缩容、备份恢复、安全治理、监控与报警、应急流程等。


1.角色与职责划分(R&R)


Platform SRE(Kafka 运营方)

  • 维护 Kafka 集群运行稳定性

  • 管理集群容量、扩容、迁移

  • 管理 Topic、ACL、Quota、架构治理

  • 执行应急处理

  • 维护监控告警体系

  • 维护自动化脚本与 CI/CD 运维流程

应用团队(微服务 / IoT / 数据平台)

  • 发起 Topic/ACL 等变更申请

  • 确认消费延迟、流量模型

  • 负责 producer/consumer 稳定性

安全团队

  • 管理用户与凭证

  • 定期审计 ACL 政策

  • 管控 API 密钥、SCRAM 密码


2. Kafka 日常巡检 Checklist


Daily Check(日巡)

1. Broker 存活(是否有 Offline Broker)
2. Partition 状态(是否有 Under Replicated Partitions)
3. ISR 是否正常(低于阈值报警)
4. Topic 流量是否异常突变(入流量/出流量)
5. 消费延迟 Consumer Lag 可视化检查
6. Controller 选举次数(是否频繁)
7. 磁盘使用率(>75% 报警)
8. JVM Heap 使用率
9. Page Cache 命中率
10. 是否存在堆积 Topic(lag > SLA)

Weekly Check(周巡)

1. 检查日志清理效果(Log Retention / Compaction)
2. Topic 增长趋势评估(容量规划)
3. Broker 重分配健康检查
4. ACL / Quota 审计
5. 异常生产者/消费者行为检查

3.监控与报警体系(必配)


核心指标分类(SRE 必监控)

A. Broker 健康

  • Broker 是否 Online

  • Controller 是否稳定

  • Request Time

  • Network Processor 使用率

B. Topic/Partition 健康

  • Under Replicated Partitions(URP)

  • Leader Imbalance Ratio

  • ISR Expand/Shrink 速度

C. 存储

  • log.dirs 可用空间

  • directory failure

D. Producer

  • Request timeout / error rate

  • batch size / buffer exhaustion

E. Consumer

  • Consumer Lag

  • Commit Failures

F. 资源

  • CPU、Load、JVM Heap

  • Page Cache 命中率

  • 分区数上限监测


告警级别

P1(必须立即处理)

  • Entire broker offline

  • Controller 无限循环被选举

  • URP > 0 持续 > 60 秒

  • 磁盘使用率 >90%

  • 所有消费者滞后增加 >30s

P2

  • 个别 partition 无 leader

  • 某消费者 lag 持续增长

P3

  • 日志清理失败

  • ACL 异常访问尝试


4. Topic / ACL / Quota 变更 SOP


所有变更必须走:

✔ GitOps

✔ Review

✔ 自动化执行

✔ 审计记录


Topic 变更流程(创建/删除/扩分区)

Step 1. 应用团队提申请

字段包括:

topic_name
retention
replication_factor
partitions
tenant/app
是否生产环境

Step 2. SRE 执行 impact 分析

  • 分区是否过多(上限:200k/集群)

  • 是否违反命名规范

  • 是否会导致 leader 不均

  • tenant quota 是否满足

Step 3. 通过 CI/CD 自动创建

示例(KRaft):

kafka-topics.sh --create \
  --bootstrap-server kafka:9092 \
  --topic prod.iot.lockco.device-events.v1 \
  --partitions 12 \
  --replication-factor 3

ACL 变更 SOP

使用自动化 pipeline 执行:

kafka-acls.sh \
  --bootstrap-server kafka:9092 \
  --add \
  --allow-principal User:iot-gateway \
  --operation Write \
  --topic prod.iot.lockco.device-events.v1

Quota 变更 SOP

kafka-configs.sh \
  --alter --bootstrap-server kafka:9092 \
  --entity-type users --entity-name iot-gateway \
  --add-config 'producer_byte_rate=10485760'

4. Broker 运维流程


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

34号树洞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值