Cgroup


前言

cgroups,其名称源自控制组群(control groups)的简写,是Linux内核的一个功能,用来限制、控制与分离一个进程组的资源(如CPU、内存、磁盘输入输出等)。

一、Cgroup资源配置

Cgroup是Control Groups的缩写,是Linux内核提供的一种可以限制、记录、隔离进程组所使用的物理资源(如CPU、内存、磁盘l0等等)的机制,被LXC、docker 等很多项目用于实现进程资源控制。Cgroup 本身是提供将进程进行分组化管理的功能和接口的基础结构,I/O或内存的分配控制等具体的资源管理是通过该功能来实现的,这些具体的资源管理功能称为Cgroup子系统,有以下几大子系统实现:

blkio:设置限制每块设备的输入输出控制,例如:磁盘,光盘和usb等
CPU:使用调度程序为cgroup任务提供CPU访问
cpuacct:产生cgroup任务的CPU资源报告
cpuset:如果是多核心的CPU,这个子系统会为cgroup任务分配单独的CPU和内存
devices:允许或拒绝cgroup任务对设备的访问
freezer:暂停和恢复cgroup任务
memory:设置每个cgroup的内存限制以及产生内存资源报告
net_cls:标记每个网络包以供cgroup方便使用
ns:命名空间子系统
perf_event:增加了每个group的监测跟踪的能力,可以监测属于某个特定的group的所有线程以及允许再特定CPU上的线程

二、Cgroup的功能
cgroups的一个设计目标是为不同的应用情况提供统一的接口,从控制单一进程(像nice)到操作系统层虚拟化(像OpenVZ,Linux-VServer,LXC)。cgroups提供:
资源限制:组可以被设置不超过设定的内存限制;这也包括虚拟内存。
优先级:一些组可能会得到大量的CPU或磁盘IO吞吐量。
结算:用来衡量系统确实把多少资源用到适合的目的上。
控制:冻结组或检查点和重启动。
三、Cgroup的作用
Cgroups最初的目标是为资源管理提供的一个统一的框架,既整合现有的cpuset等子系统,也为未来开发新的子系统提供接口。现在的cgroups适用于多种应用场景,从单个进程的资源控制,到实现操作系统层次的虚拟化(OS Level Virtualization)。Cgroups提供了以下功能:
1.限制进程组可以使用的资源数量(Resource limiting )。比如:memory子系统可以为进程组设定一个memory使用上限,一旦进程组使用的内存达到限额再申请内存,就会触发OOM(out of memory)。
2.进程组的优先级控制(Prioritization )。比如:可以使用cpu子系统为某个进程组分配特定cpu share。
3.记录进程组使用的资源数量(Accounting )。比如:可以使用cpuacct子系统记录某个进程组使用的cpu时间
4.进程组隔离(Isolation)。比如:使用ns子系统可以使不同的进程组使用不同的namespace,以达到隔离的目的,不同的进程组有各自的进程、网络、文件系统挂载空间。
5.进程组控制(Control)。比如:使用freezer子系统可以将进程组挂起和恢复。

四、测试CPU和内存

使用Dockerfile来创建一个基于centos的stress工具镜像

mkdir /opt/stress
cd /opt/stress

vim Dockerfile
FROM centos:7
MAINTAINER HZH<397615552@qq.com>
RUN yum install -y wget
RUN wget -O /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo
RUN yum install -y stress

docker build -t centos:stress .

使用下面命令创建容器,命令中–cpu-shares参数值不能保证可以获得1个vcpu或者多少GHz的CPU资源,它仅仅是一个弹性的加权值

docker run -itd --cpu-shares 100 centos:stress

说明:默认情况下,每个Docker容器的CPU份额都是1024。 单独一个容器的份额是没有意义的。只有在同时运行多个容器时,容器的CPU加权的效果才能体现出来。
例如:启动2个容器及允许查看CPU的使用百分比

docker run -itd --name cpu512 --cpu-shares 512 centos:stress stress -c 10  #容器产生10个子函数进程
docker exec -it xxxxxxxx bash  		#进入容器使用top查看cpu使用情况

再开一个容器做比较
docker run -itd ---name cpu1024 --cpu-shares 1024 centos:stress stress -c 10
docker exec -it xxxxxxxxx bash      #进入容器使用top对比两个容器的%CPU,比例是1:2

五、CPU周期限制

1、Docker提供了–cpu-period、–cpu-quota两个参数控制容器可以分配到的CPU时钟周期

–cpu-period:是用来指定容器CPU的使用要在多长时间内做一次重新分配
–cpu-quota:是用来指定在这个周期内,最多可以有多少时间用来跑这个容器
与–cpu-share不同的是,这种配置是指定的一个绝对值,容器对CPU资源的使用绝对不会超过配置的值
2、–cpu-period、–cpu-quota的单位为微秒
–cpu-period的最小值为1000微秒,最大值为1秒,默认为0.1秒
–cpu-quota的值默认为-1,表示不做控制,–cpu-period、–cpu-quota参数一般都是联合使用
例如:容器进程需要每1秒使用单个CPU的0.2秒时间,可以将cpu-period设置为100000(即0.1秒),cpu-quota设置为200000(0.2秒),当然,在多核情况下,如果允许容器进程完全占用两个CPU,则可以将cpu-period设置为100000(即0.1秒),cpu-quota设置为200000(0.2秒)

docker run -itd --cpu-period 100000 --cpu-quota 200000 centos:stress
docker exec -it xxxxxxxxxx
cat /sys/fs/cgroup/cpu/cpu.cfs_period_us
cat /sys/fs/cgroup/cpu/cpu.cfs_quota_us

六、CPU Core控制

对多核CPU的服务器,Docker还可以控制容器允许使用哪些CPU内核,即使用–cpuset-cpus参数
这对具有多CPU的服务器尤其有用,可以对需要高性能计算的容器进行性能最优的配置

docker run -itd --name cpu1 --cpuset-cpus 2-3 centos:stress			#2-3表示创建容器只能使用第2、3这两个内核,
docker exec -it xxxxxxxxxxx bash
cat /sys/fs/cgroup/cpuset/cpuset.cpus

docker exec xxxxxx taskset -c -p 1
pid 1's current affinity list: 2,3

七、CPU配额控制参数的混合使用

通过cpuset-cpus参数指定容器A使用CPU内核0,容器B只使用CPU内核3
在主机上只有这两个容器使用对应的CPU内核情况,他们各自占用全部的内核资源,cpu-shares没有明显效果
cpuset-cpus、cpuset-mems参数只在多核、多内存节点上的服务器上有效,并且必须与实际的物理配置匹配,否则也无法达到资源控制的目的
在系统具有多个CPU内核的情况下,需要通过cpuset-cpus参数为设置容器CPU内核才能方便进行测试

docker run -itd --name cpu3 --cpuset-cpus 1 --cpu-shares 512 centos:stress stress -c 1 
docker exec -it xxxxxxxxxxx bash
exit 
top #按1查看每个核心的占用

docker run -itd --name cpu4 --cpuset-cpus 3 --cpu-shares 1024 centos:stress stress -c 1 
docker exec -it xxxxxxx bash    

总结:上面的centos:stress镜像安装了stress工具,用来测试CPU和内存的负载,通过在两个容器上分别执行stress -c 1命令,将会给系统一个随机负载,产生1个进程,这个进程都会反复不停的计算由rand()产生随机数的平方根,直到资源耗尽,观察到宿主机上CPU使用率,第三个内核的使用率接近100%,并且一批进程的CPU使用率明显存在2:1 的使用比例的对比

八、内存限额

与操作系统类似,容器可以使用的内存包括两个部分:物理内存和Swap
docker通过以下两组参数来控制容器内存的使用量

-m或者–memory:设置内存使用限额
–memory-swap:设置内存+swap 的使用限额
–vm 1 :启动1个内存工作线程
–vm-bytes 280M:每个线程分配280M内存,这里的值要小于–memory-swap,否则报错
docker run -it -m 200M --memory-swap=300M progrium/stress --vm 1 --vm-bytes 280M

docker run -it -m 200M --memory-swap=300M progrium/stress --vm 1 --vm-bytes 310M			#工作线程分配的内存超过300M或者等于300M,分配的内存超过限额,stress线程会报错,容器退出

–vm-bytes等于–memory-swap值,结果报错了

九、Block IO的限制

默认情况下,所有容器能平等地读写磁盘,可以通过–blkio-weight参数来改变容器block IO的优先级
–blkio-weight与–cpu-shares类似,设置的是相对权重值,默认为500
例如:容器A读写磁盘的带宽是容器B的两倍

docker run -it --name container_A --blkio-weight 600 centos:stress
cat /sys/fs/cgroup/blkio/blkio.weight

docker run -it --name container_B --blkio-weight 300 centos:stress
cat /sys/fs/cgroup/blkio/blkio.weight

十、bps和iops的限制

bps是byte per second:每秒读写的数据量
iops是io per second:每秒IO的次数
可通过以下参数控制容器的bps和iops

–device-read-bps:限制读某个设备的bps
–device-write-bps:限制写某个设备的bps
–device-read-iops:限制读某个设备的iops
–device-write-iops:限制写某个设备的iops
<think>好的,用户之前已经询问了Docker的底层原理,现在他们又特别问到了Cgroup,而且希望更详细一点。首先,我需要确认用户的需求。他们可能已经了解了一些Cgroup的基本概念,但现在想要深入理解其工作机制、具体功能以及实际应用场景。 用户可能是开发人员或者系统管理员,正在使用容器技术,尤其是Docker,因此需要更深入的知识来优化资源管理或解决性能问题。他们可能想知道Cgroup如何具体限制CPU、内存等资源,或者如何在实际操作中配置和使用Cgroup。 接下来,我需要考虑如何组织信息。用户之前得到的内容已经涵盖了Cgroup的基础,所以现在需要扩展细节。可能需要分部分讲解,比如核心概念、子系统分类、工作原理、使用方式、实际应用例子以及注意事项等。 同时,用户可能对Cgroup与Namespace的区别和协同工作感兴趣,虽然问题中没有提到,但适当提及可以帮助用户更全面理解。另外,用户可能关心如何查看和调试Cgroup配置,所以实际操作命令会有帮助。 需要注意的是,避免重复之前提到的内容,但可以适当回顾以保持连贯性。重点放在Cgroup的详细机制、各个子系统的具体参数,以及实际配置示例。比如,如何设置CPU份额、内存限制,或者如何通过systemd与Cgroup集成。 还要考虑用户可能的误区,比如Cgroup只能限制资源,其实它还能进行资源统计和优先级控制。此外,安全性方面,比如权限管理,也是需要提及的。 最后,总结部分要强调理解Cgroup的重要性,特别是在容器化和微服务环境中,帮助用户优化资源利用和系统稳定性。可能还需要提到常见问题,比如配置错误导致的资源不足,以及如何监控和调试。</think>以下是关于 **Cgroup(Control Groups)** 的详细介绍,从核心原理到具体应用逐步展开: --- ### **1. Cgroup 是什么?** - **定义**:Linux 内核提供的机制,用于**限制、记录、隔离进程组(如容器)的资源使用**(CPU、内存、磁盘 I/O、网络等)。 - **核心目标**: - **资源限制**:防止单个进程或容器耗尽系统资源。 - **优先级控制**:为不同进程组分配不同的资源权重。 - **资源统计**:监控资源使用量(如内存占用量、CPU 时间)。 - **进程隔离**:结合 Namespace 实现容器化环境的资源隔离。 --- ### **2. Cgroup 核心概念** #### **2.1 子系统(Subsystem)** 每个子系统负责管理一类资源,常见子系统包括: | 子系统 | 功能 | |-----------------|--------------------------------------| | `cpu` | 限制 CPU 时间片分配(如按权重分配)。 | | `cpuacct` | 统计 CPU 使用时间。 | | `memory` | 限制内存使用量,统计内存占用。 | | `blkio` | 限制块设备(磁盘)的 I/O 带宽。 | | `devices` | 控制进程能否访问特定设备(如 `/dev/sda`)。 | | `net_cls` | 标记网络数据包,配合 TC(流量控制)限速。 | | `freezer` | 挂起或恢复一组进程。 | #### **2.2 层级结构(Hierarchy)** - Cgroup 按树形层级组织,每个层级可关联一个或多个子系统。 - **规则**: - 一个子系统只能附加到一个层级。 - 一个层级可附加多个子系统。 - 每个进程可属于多个层级的 Cgroup(前提是这些层级关联不同的子系统)。 #### **2.3 控制组(Control Group)** - 层级中的节点,可设置资源限制参数,包含一组进程。 - 子控制组继承父控制组的资源限制(可进一步细化限制)。 #### **2.4 任务(Task)** - 即进程(或线程),每个任务属于某个 Cgroup。 --- ### **3. Cgroup 工作原理** #### **3.1 资源限制流程** 1. **创建层级**:挂载一个 Cgroup 层级到文件系统(如 `/sys/fs/cgroup/memory`)。 2. **创建控制组**:在层级中新建目录(如 `/sys/fs/cgroup/memory/group1`)。 3. **配置参数**:向控制组的配置文件写入限制值(如 `memory.limit_in_bytes`)。 4. **添加进程**:将进程 PID 写入控制组的 `tasks` 或 `cgroup.procs` 文件。 5. **内核生效**:内核根据配置限制进程组的资源使用。 #### **3.2 关键配置文件示例** - **CPU 限制**: ```bash # 设置 CPU 权重(默认 1024,值越高分配越多 CPU 时间) echo 512 > /sys/fs/cgroup/cpu/group1/cpu.shares ``` - **内存限制**: ```bash # 限制内存最大使用量为 1GB echo 1G > /sys/fs/cgroup/memory/group1/memory.limit_in_bytes # 启用内存溢出时触发 OOM Killer echo 1 > /sys/fs/cgroup/memory/group1/memory.oom_control ``` - **磁盘 I/O 限制**: ```bash # 限制读速率为 10MB/s(针对主设备号 8、次设备号 0 的磁盘) echo "8:0 10485760" > /sys/fs/cgroup/blkio/group1/blkio.throttle.read_bps_device ``` --- ### **4. Cgroups v1 vs v2** | **特性** | **Cgroups v1** | **Cgroups v2** | |------------------|-------------------------------------|-------------------------------------| | **设计目标** | 功能分散,各子系统独立管理 | 统一资源管理,简化层级结构 | | **子系统支持** | 多个独立子系统(如 `cpu`、`memory`) | 统一接口,所有资源通过单一层级管理 | | **内存控制** | 仅限制内存用量 | 支持内存用量、Swap、缓存等综合控制 | | **默认启用** | 旧版内核(Linux < 4.5) | 新版内核(Linux ≥ 4.5) | --- ### **5. 实际应用场景** #### **5.1 容器资源限制(Docker/Kubernetes)** - Docker 通过 `--cpus`、`--memory` 等参数调用 Cgroup: ```bash docker run --cpus=2 --memory=1g nginx ``` - Kubernetes 通过 `resources.limits` 配置 Pod 的 Cgroup 限制。 #### **5.2 系统资源分配** - **优先级控制**:为关键服务分配更多 CPU 时间。 - **防止资源耗尽**:限制日志服务的内存使用,避免系统崩溃。 #### **5.3 资源监控** - 通过 `cpuacct` 子系统统计容器 CPU 使用时间。 - 通过 `memory.stat` 文件查看内存详细使用情况。 --- ### **6. 操作 Cgroup 的工具** #### **6.1 手动操作** - 通过 `sysfs` 文件系统直接修改配置文件(需 root 权限)。 - 挂载 Cgroup 层级: ```bash mount -t cgroup -o memory memory /sys/fs/cgroup/memory ``` #### **6.2 命令行工具** - **`cgcreate` / `cgset`**:创建控制组并设置参数。 ```bash cgcreate -g cpu,memory:group1 cgset -r cpu.shares=512 group1 ``` - **`systemd`**:通过 `systemd` 管理服务资源(底层依赖 Cgroup): ```bash # 限制服务内存为 1GB systemctl set-property nginx.service MemoryLimit=1G ``` #### **6.3 容器运行时** - Docker、containerd 等自动管理容器的 Cgroup。 --- ### **7. 常见问题与调试** #### **7.1 查看进程所属 Cgroup** ```bash cat /proc/<PID>/cgroup ``` #### **7.2 调试资源限制失败** - **现象**:容器因内存不足被 OOM Killer 终止。 - **检查步骤**: 1. 查看容器 Cgroup 的 `memory.usage_in_bytes`。 2. 检查宿主机内存总量是否充足。 3. 确认是否启用了 Swap。 #### **7.3 Cgroup 与 Namespace 的关系** - **Cgroup**:限制资源用量。 - **Namespace**:隔离进程视图(如 PID、网络)。 - **协同工作**:两者结合实现容器的资源隔离与限制。 --- ### **8. 安全注意事项** - **权限控制**:避免非特权用户修改 Cgroup(可通过 `cgroup` 文件系统的权限设置)。 - **内核漏洞**:旧版 Cgroup 实现可能存在逃逸漏洞(需及时更新内核)。 --- 掌握 Cgroup 的底层机制,能够更精准地优化资源分配、排查性能问题,并设计高可靠性的容器化系统。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值