3.1 确认内存是否不足
- 首先我们确认下是否是 内存不足原因导致的,登录异常任务节点通过
free -g
命令查看机器可用内存是否充足;查看机器可用内存(available)是充足的,故排除机器内存。
[root@szzb-bg-prd-sdp-dn-xx ~]# free -g
total used free shared buff/cache available
Mem: 755 270 14 1 469 481
Swap: 0 0 0
- 接着我们确认是否是 Flink 任务 JVM 内存不足,异常任务重启后观察一段时间 Flink JobManager / TaskManager JVM 内存使用率,查看 JVM 使用率不高,排除此项。
3.2 确认机器线程数达到限制
- 首先确认系统级别的线程数,
max user processes
为 655350,已修改为较大值。
[root@szzb-bg-prd-sdp-dn-xx ~]# ulimit -a
core file size (blocks, -c) unlimited
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 3092399
max locked memory (kbytes, -l) 64
max memory size (kbytes, -m) unlimited
open files (-n) 655350
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 8192
cpu time (seconds, -t) unlimited
max user processes (-u) 655350
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
[root@szzb-bg-prd-sdp-dn-xx ~]# cat /etc/security/limits.conf
# /etc/security/limits.conf
.....
# End of file
* soft nproc 655350
* hard nproc 655350
* soft nofile 655350
* hard nofile 655350
* soft core unlimited
* hard core unlimited
- 接着查看某个进程的线程数设置是否生效,获取到进程的 PID 后,通过命令
cat /proc/PID/limits
查看PID 的线程数;发现与系统级别一致。
[root@szzb-bg-prd-sdp-dn-xx ~]# cat /proc/29155/limits
Limit Soft Limit Hard Limit Units
Max cpu time unlimited unlimited seconds
Max file size unlimited unlimited bytes
Max data size unlimited unlimited bytes
Max stack size 8388608 unlimited bytes
Max core file size unlimited unlimited bytes
Max resident set unlimited unlimited bytes
Max processes 655350 655350 processes
Max open files 655350 655350 files
Max locked memory 65536 65536 bytes
Max address space unlimited unlimited bytes
Max file locks unlimited unlimited locks
Max pending signals 3092399 3092399 signals
Max msgqueue size 819200 819200 bytes
Max nice priority 0 0
Max realtime priority 0 0
Max realtime timeout unlimited unlimited us
- 然后查看内核级别的
threads-max
,通过命令cat /proc/sys/kernel/threads-max
查看,已修改为较大值。
[root@szzb-bg-prd-sdp-dn-xx ~]# cat /proc/sys/kernel/threads-max
6184799
# echo "kernel.threads-max = 6184799" >> /etc/sysctl.conf && sysctl -p
- 最后查看内核级别的
pid_max
,通过命令/proc/sys/kernel/pid_max
查看,当前值为9W。
[root@szzb-bg-prd-sdp-dn-xx ~]# cat /proc/sys/kernel/pid\_max
90000
通过命令cat /proc/loadavg
查看 当前的总线程数,当前值为 100734,是大于 pid_max
的,导致 "unable to create new native thread"
,需要修改 pid_max
。
[root@szzb-bg-prd-sdp-dn-xx ~]# cat /proc/loadavg
15.23 15.75 17.25 13/100734 66544
# The first three columns measure CPU and IO utilization of the last one, five, and 10 minute periods. The fourth column shows the number of currently running processes and the total number of processes. The last column displays the last process ID used.
# 前三个数据表示 最近1分钟、5分钟、10分钟负载
**自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。**
**深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!**
**因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。**





**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!**
**由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**
**如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)**

**一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
转存中...(img-ar2VnHb1-1712991325789)]
**一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**