如何进行kubernetes问题的排障

最新推荐文章于 2025-04-03 09:18:32 发布

省赚客APP开发者@聚娃科技

最新推荐文章于 2025-04-03 09:18:32 发布

阅读量807

点赞数

本文链接：https://blog.youkuaiyun.com/weixin_44627014/article/details/103001707

版权

排障的前置条件

k8s的成熟度很高，伴随着整个项目的扩增，以及新功能和新流程的不断引入，也伴随这产生了一些问题。虽然自动化测试可以排除掉大部分，但是一些复杂流程以及极端情况却很难做到bug的完全覆盖。因此在实际的工作过程中，需要对运行的集群进行故障定位和解决。

当然，进行排障的前提是对于k8s的流程和概念进行掌握，对于源码有一定的掌握能力，才可以更好的进行。待排障的环境和版本和源代码的版本需要进行匹配。版本号可以通过version命令获取，然后从源码进行对照。而且kubectl version还可以展示更为git的commit id。这样更为精准一些。本文以一次排障过程为例，介绍进行kubernetes问题排障的一般思路和方法。

故障背景

在某个压测的集群(集群版本为v1.12.10)内，为了测试极端性能，于是kubelet上配置了单节点可以创建的容器数从110调整为了600。并且进行反复大批量的容器创建和删除。在压测后一段时间，陆续多个节点变为NotReady，直到整个节点全部变为了NotReady。在节点上看到有大量的容器待删除。kubelet虽然仍在运行，但是已经不进行任何的pod生命周期的管理了，已经呆住了。其他组件大都正常。此时停了压测工具，kubelet仍然不能够恢复正常。尝试将一个节点的kubelet重启后，节点恢复正常。

故障分析

日志分析

首先从日志上进行分析。日志是日常排障的最主要的工具。从长期经验来看，我们的主要方式是将日志写入到文件，并配合glogrotate进行日志的回滚。不使用journal的主要原因一个是习惯，另外就是使用效率上也没有文件来的快速。关于日志级别，日志级别太高，日志量会很大；而级别太低，日志信息量又不足。日志级别按照经验我们一般定位4级。

从日志上进行分析，可以看到这样一条日志。

I1105 09:50:27.583544  548093 kubelet.go:1829] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 58h29m3.043779855s ago; threshold is 3m0s]

也就是PLEG不再健康了。那么这一行是怎么报出来的呢？对照代码，我们可以找到这样的信息。

func (kl *Kubelet) syncLoop(updates <-chan kubetypes.PodUpdate, handler SyncHandler) {
......
    for {
        if rs := kl.runtimeState.runtimeErrors(); len(rs) != 0 {
            glog.Infof(&

最低0.47元/天解锁文章