目录
12.Kafka Connect / Schema Registry 运维

Kafka 内部 SRE 运维 SOP(标准操作流程)——用于公司内部运维体系(支持 Zookeeper 与 KRaft 双模式)。 结构包含日常巡检、变更、故障处理、扩缩容、备份恢复、安全治理、监控与报警、应急流程等。
1.角色与职责划分(R&R)
Platform SRE(Kafka 运营方)
-
维护 Kafka 集群运行稳定性
-
管理集群容量、扩容、迁移
-
管理 Topic、ACL、Quota、架构治理
-
执行应急处理
-
维护监控告警体系
-
维护自动化脚本与 CI/CD 运维流程
应用团队(微服务 / IoT / 数据平台)
-
发起 Topic/ACL 等变更申请
-
确认消费延迟、流量模型
-
负责 producer/consumer 稳定性
安全团队
-
管理用户与凭证
-
定期审计 ACL 政策
-
管控 API 密钥、SCRAM 密码
2. Kafka 日常巡检 Checklist
Daily Check(日巡)
1. Broker 存活(是否有 Offline Broker)
2. Partition 状态(是否有 Under Replicated Partitions)
3. ISR 是否正常(低于阈值报警)
4. Topic 流量是否异常突变(入流量/出流量)
5. 消费延迟 Consumer Lag 可视化检查
6. Controller 选举次数(是否频繁)
7. 磁盘使用率(>75% 报警)
8. JVM Heap 使用率
9. Page Cache 命中率
10. 是否存在堆积 Topic(lag > SLA)
Weekly Check(周巡)
1. 检查日志清理效果(Log Retention / Compaction)
2. Topic 增长趋势评估(容量规划)
3. Broker 重分配健康检查
4. ACL / Quota 审计
5. 异常生产者/消费者行为检查
3.监控与报警体系(必配)
核心指标分类(SRE 必监控)
A. Broker 健康
-
Broker 是否 Online
-
Controller 是否稳定
-
Request Time
-
Network Processor 使用率
B. Topic/Partition 健康
-
Under Replicated Partitions(URP)
-
Leader Imbalance Ratio
-
ISR Expand/Shrink 速度
C. 存储
-
log.dirs 可用空间
-
directory failure
D. Producer
-
Request timeout / error rate
-
batch size / buffer exhaustion
E. Consumer
-
Consumer Lag
-
Commit Failures
F. 资源
-
CPU、Load、JVM Heap
-
Page Cache 命中率
-
分区数上限监测
告警级别
P1(必须立即处理)
-
Entire broker offline
-
Controller 无限循环被选举
-
URP > 0 持续 > 60 秒
-
磁盘使用率 >90%
-
所有消费者滞后增加 >30s
P2
-
个别 partition 无 leader
-
某消费者 lag 持续增长
P3
-
日志清理失败
-
ACL 异常访问尝试
4. Topic / ACL / Quota 变更 SOP
所有变更必须走:
✔ GitOps
✔ Review
✔ 自动化执行
✔ 审计记录
Topic 变更流程(创建/删除/扩分区)
Step 1. 应用团队提申请
字段包括:
topic_name
retention
replication_factor
partitions
tenant/app
是否生产环境
Step 2. SRE 执行 impact 分析
-
分区是否过多(上限:200k/集群)
-
是否违反命名规范
-
是否会导致 leader 不均
-
tenant quota 是否满足
Step 3. 通过 CI/CD 自动创建
示例(KRaft):
kafka-topics.sh --create \
--bootstrap-server kafka:9092 \
--topic prod.iot.lockco.device-events.v1 \
--partitions 12 \
--replication-factor 3
ACL 变更 SOP
使用自动化 pipeline 执行:
kafka-acls.sh \
--bootstrap-server kafka:9092 \
--add \
--allow-principal User:iot-gateway \
--operation Write \
--topic prod.iot.lockco.device-events.v1
Quota 变更 SOP
kafka-configs.sh \
--alter --bootstrap-server kafka:9092 \
--entity-type users --entity-name iot-gateway \
--add-config 'producer_byte_rate=10485760'

最低0.47元/天 解锁文章
6561

被折叠的 条评论
为什么被折叠?



