k8s中启pod时需要设置内存资源。虽然说内存越大越好,但是在集群资源有限的情况下,可以按照workload请求适当的资源。因此需要掌握workload资源占用情况。可以在模型训练过程中利用top命令查看workload所需资源。
top命令:
top - 05:31:12 up 97 days, 1:49, 0 users, load average: 0.06, 0.43, 0.40
Tasks: 3 total, 1 running, 2 sleeping, 0 stopped, 0 zombie
%Cpu(s): 0.2 us, 0.2 sy, 0.0 ni, 99.5 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 26372707+total, 68578552 free, 7731376 used, 18741715+buff/cache
KiB Swap: 16777212 total, 16660780 free, 116432 used. 24941532+avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1 root 20 0 4368 364 292 S 0.0 0.0 0:00.02 sleep
7 root 20 0 18284 2088 1556 S 0.0 0.0 0:00.03 bash
313 root 20 0 36636 1772 1316 R 0.0 0.0 0:03.69 top
top - 05:31:12:当前系统时间
97 days, 1:49:系统已经运行了97天零1小时49分
0 users:0个用户当前登录,同一帐号登录多个终端也会累加
load average: 0.06, 0.43, 0.40:平均负载(过去1分钟,五分钟,15分钟平均队列长度,在CPU队列上等待的队列长度)
Tasks: 3 total:总进程数
1 running:正在运行的进程数
2 sleeping:睡眠的进程数
0 stopped:停止的进程数
0 zombie :僵死的进程数
%Cpu0:占用CPU百分比(按数字键1,可展开,默认只显示一个%CPU0)
0.2 us:用户空间占用CPU百分比(CentOS7取消了%的显示,用户和内核占用比率7:3)
0.2 sy:内核空间占用CPU百分比
0.0 ni:用户空间内改变过优先级的进程\占用CPU百分比(Nice)
99.5 id:空闲CPU百分比
0.0 wa:等待IO的CPU时间百分比
0.0 hi, 0.0 si:硬件中断,软件中断
0.0 st:被虚拟化程序偷走的时间
KiB Mem : 26372707+ total:物理内存总量263.7G???
68578552 free:空闲内存总量 68.5G
7731376 used:使用的物理内存总量 7.7G
18741715+buff/cache:用于缓冲和缓存的内存空间 187.4G???
KiB Swap:16777212 total:交换区总量 16.7G
16660780 free, 116432 used:空闲交换区总量,使用的交换区总量 16.6G 0.1G
24941532+ avail Mem:可用内存空间 249.4G???
VIRT:虚拟内存集
RES:常驻内存集
SHR:共享内存空间