原因
没找到。。。反正不是tmux的问题。。
管理员怀疑某个有管理员权限的用户不小心改了什么全局参数。。
于是改用slurm来管理集群了,啊,这玩意儿真难用,远不如直接ssh来的爽,暴风哭泣
叙述一下心路历程:
端午节正在快乐炼丹,看了眼htop发现服务器发现两核有难62核围观,感觉挺有意思的,甚至发了条动态

因为之前也出现过类似现象,后来莫名其妙就好了(应该是碰巧服务器重启),也就没放在心上
直到第二天急着跑推理看结果,发现还是很慢,并且发现服务器变本加厉成了一核有难63核围观:

遂开始刨根问底,首先用htop查看本用户进程,发现本用户绝大部分进程被锁到了3号核心:

并且发现另一个用户也被锁:

而有的用户则未被锁(忘截图)
此时我开始怀疑难道是被管理员制裁了?

等程序跑完再看眼htop发现:恩???vscode远程连接进程似乎没被锁:

仔细查了一圈3号核心上的进程,似乎都是tmux中执行的!于是新建一个终端执行训练来测试,果然是tmux的问题!(并且另一个被锁在2号核心的用户进程也都是tmux的):

这可咋整,百度google无果后,无奈重启tmux server,结果非常啊妹zing:

博客记录了一次使用 tmux 进程管理器时遇到的奇怪问题,所有进程被锁定在特定 CPU 核心,影响了服务器资源分配。通过排查,发现是 tmux 的全局配置问题导致,重启 tmux server 后恢复正常。同时,作者分享了从 tmux 切换到 slurm 集群管理系统的经历。
2265

被折叠的 条评论
为什么被折叠?



