k8s实例线程、内存、存储异常与标准化

原创

已于 2022-10-09 17:11:59 修改 · 1.1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#docker #容器 #kubernetes

于 2022-06-09 17:32:48 首次发布

本文介绍了如何解决K8s中线程爆满问题，通过标准化线程限制、内存监控与OOM处理，以及调整实例存储和文件描述符配置。还探讨了如何配置docker以优化Pod性能和资源使用。

一、实例的线程标准化

关于线程爆的问题：由于k8s用户在使用的时候，通常没有关注到Pod的/proc/pid/cpuinfo,meminfo的实例规格信息默认和宿主机的是一致的，故程序默认使用容器的这个/proc/pid/cpuinfo设置默线程maxP(最大线程值)，导致爆线程。平台可以给Pod做类似LXCFS之类的文件系统优化，让容器里面看到真实的cpu数据。当然另一种情况是，用户的程序并发控制确实存在问题（比如java线程池，python并发）

1、登录宿主机后，观察pod状态为running，但是kubectl exec 和docker exec 均无法进入该容器，报错如下
在这里插入图片描述
2、找出线程高于10000的容器

cd /sys/fs/cgroup/pids/kubepods && find -name pids.current |grep pod |xargs -I file sh -c 'echo -e file" \c" && cat fi

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cqwlinux

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

企业AI开发平台的容器化部署：AI应用架构师的Docker与K8s实战

AI天才研究院

08-05

762

随着企业AI应用从实验走向生产，传统部署方式（如裸金属、虚拟机）的痛点（环境不一致、资源利用率低、弹性不足）日益凸显。容器化技术（Docker）与编排系统（Kubernetes，简称K8s）为解决这些问题提供了标准化方案。本文从概念基础理论框架架构设计实现机制实际应用高级考量六大维度，结合AI应用架构师的实战经验，系统讲解企业AI开发平台的容器化部署全流程。Docker镜像构建的最佳实践（多阶段构建、分层优化）；K8s集群中AI任务（训练/推理）的调度策略（GPU资源管理、分布式训练编排）；

K8s：概念、特点、核心组件与简单应用

m0_67544876的博客

04-22

3183

Kubernetes 凭借其强大的功能和丰富的特性，在容器编排领域占据了重要地位。通过本文对 K8s 概念、特点、核心组件的介绍，以及简单应用示例的展示，相信读者对 K8s 有了更深入的理解。无论是在提升应用的部署效率、保障应用的高可用性，还是在适应复杂多变的业务场景方面，K8s 都展现出了巨大的优势。在实际应用中，开发者和运维人员可以根据具体需求，灵活运用 K8s 的各项功能，构建高效、可靠的应用系统。随着技术的不断发展，K8s 的生态系统也在持续完善，未来必将为更多企业和开发者带来更大的价值。

参与评论您还未登录，请先登录后发表或查看评论

K8s工程化：K8s中的Java应用出现OOM后怎么办？

apl359的博客

08-23

2385

完整代码在文末背景前段时间，线上系统出现了两次持续时间比较长的事故。这两次事故暴露我在某些方面的不足。同时，也意识到在SRE这个领域，经验的重要性。事故过程中，我们发现大量的FullGC。...

buffer/cach内存占用过高及k8s java后端pod容器超出内存限制被kill重启

Kainx

11-15

1万+

现象之前某个后端服务pod在不停的重启导致线上环境很不稳定,于是开始分析问题的原因

k8s oom告警解决记录

进化的深山猿

11-09

3870

oom告警问题背景：容器中执行运行和评测，如存在如下代码： #include <stdio.h> #include <malloc.h> #include <string.h> #include <unistd.h> int main () { char *p = NULL; int count = 1; int n = 1024*1024*100; while(1){ p = (char *)malloc...

【精品】kubernetes（K8S）集群top命令监控 Pod 度量指标

Friendsofthewind的博客

11-21

2272

找出标签是name=cpu-user的Pod，并过滤出使用CPU最高的Pod，然后把它的名字写在已经存在的/opt/cordon.txt文件里。

k8s最佳实践：部分业务POD内存持续泄露问题

Y先森0.0

05-16

3305

K8S部分业务POD内存持续泄露问题 1.前言线上K8S集群有极少量的PHP业务，它们的POD内存持续走高直到OOM，相信与特殊代码场景有关，需要展开分析。我从POD的内存监控原理入手，分析到底内存用到了哪些地方。 2.分析过程第一步：分析pod的内存限制原理容器化依赖Cgroup限制内存资源，Docker采集容器的内存使用量也是基于Cgroup技术实际上，Cgroup标准做法是...

云原生：详解｜K8s技术栈解析 —--- 一文读懂K8s工作原理

weixin_39552004的博客

10-29

3223

文章比较长，但通俗易懂的工作原理解析： K8s学习办法、K8s标准对象、K8s核心组件、K8s分层架构、K8s架构原则上一节我们详解了容器的核心技术：详解｜容器核心技术解析回顾容器主要技术有 name space做隔离，有Cgroup的资源控制，可以很安全地把一个应用丢到某个隔离环境中去运行，并且不对整个主机产生影响。这个应用要跑起来，需要所支撑的文件系统是overlayFS。上一节主要解析了这些技术。容器技术，从原理上了解，它是用什么样的方式让容器运行起来的。 K8s学习办法了

K8s技术栈详解

WziH_优快云的博客

09-19

817

K8s技术栈详解

线程与操作系统 vs 容器与K8s

oatlmy

02-01

893

简要说明线程和操作系统的关系以及容器与K8S的关系

linux下查看某进程内有多少个线程的方法（ps、top、Htop）

热门推荐

AnChenliang_1002的博客

06-25

2万+

大家可能对top监控软件比较熟悉，但是htop，可以称之为top的增强版，相比top其有着很多自身的优势。具体使用方法可以自行搜索一下，这里就不详细阐述了，了解一下知道有这个方法即可。运行结果如下，PIDWie进程号，SPID为线程号，CMD为线程名称。可以看到PID为362839。此时就可以查看该进程内有多少个线程了。

Java多线程监听K8s Job运行状态

学为

09-08

1809

Java多线程监听K8s Job的状态，如果在项目中需要知道Job运行状态，可以利用线程池启动线程进行检测，完成后推送消息，然后关闭线程； 1，配置线程池 @Configuration @EnableAsync public class TaskPoolConfig { @Bean("taskExecutor") public Executor taskExecutro(){ ThreadPoolTaskExecutor taskExecutor = new ThreadP

k8s中文件描述符与线程限制

Qinng的博客

04-11

9185

背景 linux中为了防止进程恶意使用资源，系统使用ulimit来限制进程的资源使用情况（包括文件描述符，线程数，内存大小等）。同样地在容器化场景中，需要限制其系统资源的使用量。限制方法 ulimit: docker 默认支持ulimit设置，可以在dockerd中配置 default-ulimits 可为宿主机所有容器配置默认的ulimit，docker启动时可添加 --ulimit 为每个...

【Kubernetes】记录一次K8S容器内程序OOM排查过程：unable to create new native thread

浩瀚宇宙的一粒尘埃

02-03

1854

项目背景：基于k8s的容器化kafka PaaS管理平台，业务团队申请kafka，通过一系列操作，封装crd，调用operator创建集群，当然还包括其他功能、topic管理、group管理、监控告警、集群扩容、分区管理等等。后台会对每个集群启动定时任务，扫描kafka的元数据变化，主要是使用zk客户端Curator。

k8s-kublulet-OOM-kill ，容器 OOM ， jvm oom故障分析

yuezhilangniao的博客

04-21

5459

# 排查参考文章： https://blog.youkuaiyun.com/fly910905/article/details/90179225 # 理解Linux oom https://blog.youkuaiyun.com/run_for_belief/article/details/83446344 # 理解 java oom https://www.cnblogs.com/bhlsheji/p/5330045.html 省略比較小的区域，能够总结JVM占用的内存： JVM内存 ≈ Java永久代＋...

k8s容器 pod OOM, exit code:137

feichen2016的博客

11-02

1万+

某天查看线上服务，发现有个服务平均每天重启一次，通过k8s descripe pod podName 命令发现exit code： 137 reason: OOM Killed. 提示比较明显OOM（当时查了失败的容器内服务日志，发现没有异常信息，有点疑惑的）,然后果断在jvm配置里添加OOM自动dump日志参数，-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/heapdump.hprof，等着问题后分析日志原因（我们体量不大，同时又是多节点，所.

【k8s容器】云上的容器oom排查

liaonanfeng88的优快云博客

07-11

3769

遇到容器偶尔oom的问题，看了半天监控却发现监控数据和现场对不上，因此学习了一下prometheus的监控采集和docker容器的资源隔离。我们的应用运行在阿里云ack上，监控使用的是阿里云上的prometheus和arms......

总结：记一次K8S容器OOM案例

w2009211777的专栏

07-15

5373

JVM OOM -XX:MaxRAMPercentage

Kubernetes Pod内存监控

Things change, roll with them.

08-21

5341

WorkingSet（container_memory_working_set_bytes）和Usage（container_memory_usage_bytes）基本上是以1:1的趋势到达limits，然后Pod触发OOM。当Usage达到Limits，Pod不会OOM，随着WorkingSet继续增大，Cache逐渐减小，等WorkingSet到达Limit，Pod才OOM。基于以上的指标，就可以计算Pod的内存使用率，当然，需要Pod有设置Limits才有意义。

k8s中部署logstash和es是如何互相关联的