k8s容器 pod OOM, exit code:137

作者在查看线上服务时,发现服务平均每天重启一次,提示OOM。添加OOM自动dump日志参数后未找到dump文件,经查找得知容器OOM和服务OOM不同。推测是jvm内存设置不合理,调小jvm堆内存设置后问题解决。还提到Java 8u191+及Java 10对容器内存限制的感知情况。
  1. 某天查看线上服务,发现有个服务平均每天重启一次,通过k8s descripe pod podName 命令发现exit code: 137 reason: OOM Killed.
  2. 提示比较明显OOM(当时查了失败的容器内服务日志,发现没有异常信息,有点疑惑的),然后果断在jvm配置里添加OOM自动dump日志参数,-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/heapdump.hprof,等着问题后分析日志原因(我们体量不大,同时又是多节点,所以直接线上搞了。一般情况下还是线上能优化就先优化下,测试环境验证,确定问题,并解决后再处理线上)
  3. 第二天发现pod又重启后,进入pod所在服务器,找到对应已关闭的docker容器,执行docker cp 命令,去copy dump文件发现路径不存在,没有该文件,有点蒙,感觉哪里又弄错了,于是重新检查配置是否生效,同时又去网上用exit code 137 OOM重新查找。
  4. 看了篇文章,意识到容器OOM和服务OOM不是一回事,容器OOM是因为容器占用内存超过了配置里内存的limit设置,导致容器服务把容器kill掉了,对与服务而言这时还是正常的,自然不会dump 日志了。理解了这层含义后,大致猜测jvm内存设置不合理,运行期间堆内存逐渐增大,jvm最大内存还没到,但是已经达到了容器内存的最大限制,然后容器被kill掉了。
  5. 于是调小了jvm堆内存设置,后续跟踪几天发现没在出现该情况。
  • PS:容器内jvm感知不到容器限制,Java 8u191 +支持加参数感知容器内存限制,以及设定内存占用比例,java10以后好像可以不加参数自动感知容器内存
<think> 嗯,用户的问题很明确:想知道Kubernetes中当Pod里的容器OOM杀死后,Pod是否会重启。这是个经典的运维问题,需要结合K8s的底层机制来解释。 用户引用了三份站内资料,其中引用[1]提到容器内存限制接近时内核会回收内存并可能触发OOM,这正好是问题发生的场景。引用[2]关于控制器的说明和引用[3]关于kubelet驱逐机制的内容虽然相关,但当前问题更聚焦在容器级别的OOM后行为。 从技术原理来看,需要分两层回答:首先是容器OOM杀死后的默认行为,其次是控制器如何介入。关键点在于: 1. 容器被内核OOM killer杀死属于异常退出(exit code 137),这会触发kubelet的容器重启机制 2. restartPolicy决定了是否重启,Deployment等控制器默认Always会无限重启 3. 重启不等于恢复服务,业务代码需要自己处理OOM后的状态恢复 用户可能还隐含想知道“为什么有时看到Pod卡在CrashLoopBackOff”,这其实是重启策略和退避算法的共同作用结果。需要强调多次OOM会导致重启间隔指数级增长,看似Pod“没重启”实际是被暂停重启了。 考虑到用户是运维人员,补充两个实践细节会更有帮助:如何查看OOM后的exit code(kubectl describe pod),以及如何区分容器OOM和节点OOM的日志特征差异。这些在之前的对话历史中用户表现出兴趣。 最后生成的相关问题要延续这个技术脉络:OOM后的故障排除(问题1)、重启策略优化(问题2)、资源限制配置(问题3)都是自然延伸。特别加入问题4关于状态保留,因为这是有状态服务常遇到的坑。 </think>在 Kubernetes 中,**当 Pod 中的容器OOM 机制杀死后,Pod 是否会重启取决于其配置的 `restartPolicy`**。以下是具体机制分析: --- ### 一、OOM 触发后的行为流程 1. **OOM 事件发生** 当容器内存使用超过其 `limits.memory` 限制时,Linux 内核 OOM Killer 会强制终止容器内占用内存最多的进程(通常为业务进程),并记录事件: ```bash # 节点日志示例 Memory cgroup out of memory: Kill process 2151 (java) ``` 2. **容器状态变更** 容器退出码为 **`137`**(128 + 9,9 代表 `SIGKILL` 信号),Kubelet 检测到该状态: ```bash kubectl describe pod my-pod ``` ```yaml Containers: my-container: State: Terminated Reason: OOMKilled # 关键标识 Exit Code: 137 ``` 3. **Pod 重启决策** | `restartPolicy` 策略 | 是否重启容器 | 典型场景 | 引用依据 | |----------------------|--------------|------------------------|----------| | `Always` (默认) | ✅ 自动重启 | Deployment/StatefulSet | [^2] | | `OnFailure` | ✅ 自动重启 | Job/CronJob | [^2] | | `Never` | ❌ 不重启 | 特殊调试场景 | [^2] | --- ### 二、重启过程中的关键现象 1. **重启延迟与退避策略** Kubelet 采用指数退避(Exponential Backoff)算法控制重启间隔,避免频繁 OOM 导致雪崩: - 首次重启:立即 - 第二次重启:延迟 10 秒 - 第三次重启:延迟 20 秒 - 后续重启:延迟时间按 `2^n` 指数增长 2. **CrashLoopBackOff 状态** 当容器OOM 反复重启时,Pod 进入此状态: ```bash kubectl get pods ``` ``` NAME READY STATUS RESTARTS AGE my-pod 0/1 CrashLoopBackOff 3 2m ``` 此状态表示:**容器仍在尝试重启,但持续失败**。 --- ### 三、OOM 与驱逐(Eviction)的区别 | 机制 | 触发层级 | 结果 | 日志特征 | |-------------|--------------|-----------------------|-------------------| | **容器 OOM**| 容器级别 | 仅重启单个容器 | `OOMKilled` | | **节点驱逐**| 节点资源不足 | 整 Pod 被删除并迁移 | `Evicted` | 如引用[3]所述,节点驱逐由 kubelet 在资源不足时触发,与容器 OOM 机制独立[^3]。 --- ### 四、运维建议 1. **确认根本原因** 检查容器内存限制是否合理: ```bash kubectl get pod my-pod -o jsonpath='{.spec.containers[0].resources.limits.memory}' ``` 2. **调整内存配置** 在 Deployment 中增加内存限制与请求: ```yaml resources: requests: memory: "512Mi" # 保证调度时预留内存 limits: memory: "1Gi" # 硬性上限 ``` 3. **监控与告警** 配置 Prometheus 规则捕获 `OOMKilled` 事件: ```yaml - alert: ContainerOOM expr: kube_pod_container_status_last_terminated_reason{reason="OOMKilled"} == 1 for: 1m ``` > 💡 **经验总结**:容器 OOM 后默认会重启(除非 `restartPolicy: Never`),但需警惕高频重启导致的 `CrashLoopBackOff`,本质仍需解决内存超限问题[^1][^3]。 --- ### 五、相关问题延伸 1. 如何区分 `CrashLoopBackOff` 是由 OOM 还是其他原因导致? 2. 容器内存限制设置过小会引发哪些副作用? 3. Kubernetes 的 QoS 等级(Guaranteed/Burstable/BestEffort)如何影响 OOM 优先级? 4. 如何通过 `kubectl events` 快速定位 OOM 事件? [引用依据] [^1]: Kubernetes 内存管理机制 [^2]: Pod 生命周期与控制器行为规范 [^3]: 节点压力驱逐与 OOM 的区别
评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值