docker process tree

本文通过使用sshd镜像启动Docker容器实例,详细介绍了容器内的进程树结构及其与宿主机之间的进程关系。展示了如何从容器内部及宿主机视角观察进程,并解释了不同层级的进程启动方式。
使用sshd这个镜像来简单的介绍一下container和宿主机的进程树结构 : 
首先使用前面我们创建的sshd镜像, 启动一个container, 
http://blog.163.com/digoal@126/blog/static/1638770402014102711413675/
[root@localhost ~]# docker ps
CONTAINER ID        IMAGE                COMMAND               CREATED             STATUS              PORTS               NAMES
74e5b4373374        digoal/sshd:latest   "/usr/sbin/sshd -D"   29 minutes ago      Up 29 minutes       22/tcp              digoal  

container对应的IP和PID如下 : 
[root@localhost ~]# docker inspect digoal
        "IPAddress": "172.17.0.22",
        "Pid": 8378,

登录到container, 并启动一个postgresql server, 便于查看进程结构.
[root@localhost ~]# ssh 172.17.0.22
root@172.17.0.22's password: 
Last login: Thu Nov 27 13:32:37 2014 from 172.17.42.1

在container内部, pid=1的进程是docker 的entrypoint或cmd执行的命令, 例如sshd的镜像执行的是sshd -D.
[root@74e5b4373374 ~]# ps -ewf|grep 1
root         1     0  0 13:32 ?        00:00:00 /usr/sbin/sshd -D

在container内启动的其他进程是继承自PID1的, 即sshd -D进程.
postmaster进程继承自sshd, postmaster的其他子进程继承自postmaster.

[root@74e5b4373374 ~]# ps -ewfjH|grep postgres
postgres   288     1   285     8  0 13:35 ?        00:00:00   /usr/bin/postgres
postgres   289   288   289   289  0 13:35 ?        00:00:00     postgres: logger process  
postgres   291   288   291   291  0 13:35 ?        00:00:00     postgres: checkpointer process  
postgres   292   288   292   292  0 13:35 ?        00:00:00     postgres: writer process  
postgres   293   288   293   293  0 13:35 ?        00:00:00     postgres: wal writer process  
postgres   294   288   294   294  0 13:35 ?        00:00:00     postgres: autovacuum launcher process  
postgres   295   288   295   295  0 13:35 ?        00:00:00     postgres: stats collector process 

在宿主机上看的话, container继承自docker server, container中的其他进程继承自container cmd或entrypoint调用.
# ps -ewfjH|grep postgres
root      4661     1  4661  4661  1 19:23 ?        00:02:14   /usr/bin/docker -d --selinux-enabled=false -g /data01/docker
root      8378  4661  8378  8378  0 21:32 ?        00:00:00     /usr/sbin/sshd -D
26        8840  8378  8837  8458  0 21:35 ?        00:00:00       /usr/bin/postgres
26        8841  8840  8841  8841  0 21:35 ?        00:00:00         postgres: logger process  
26        8843  8840  8843  8843  0 21:35 ?        00:00:00         postgres: checkpointer process  
26        8844  8840  8844  8844  0 21:35 ?        00:00:00         postgres: writer process  
26        8845  8840  8845  8845  0 21:35 ?        00:00:00         postgres: wal writer process  
26        8846  8840  8846  8846  0 21:35 ?        00:00:00         postgres: autovacuum launcher process  
26        8847  8840  8847  8847  0 21:35 ?        00:00:00         postgres: stats collector process

PID=1的进程是systemd(CentOS 7.x 是这样的)
root         1     0  0 19:03 ?        00:00:02 /usr/lib/systemd/systemd --switched-root --system --deserialize 23

如果CentOS 6.x 是init进程 : 
root         1     0  0 Nov20 ?        00:00:02 /sbin/init

关于cgroup请参考
图例 : 
docker process tree - 德哥@Digoal - PostgreSQL research
 


[参考]
### vLLM多GPU分层部署使用Docker vLLM 是一种高效的大型语言模型推理框架,支持多 GPU 的分布式部署。通过 Docker 进行 vLLM 的多级多卡部署可以显著简化环境配置和管理过程。以下是关于如何实现这一目标的关键技术细节: #### 1. **Docker 环境准备** 为了在多个 GPU 上运行 vLLM,首先需要确保 Docker 支持 NVIDIA GPU 加速功能。这可以通过安装 `nvidia-docker` 来完成[^4]。 ```bash # 安装 nvidia-container-toolkit distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt-get update && sudo apt-get install -y nvidia-docker2 sudo systemctl restart docker ``` 上述脚本会设置好 NVIDIA Docker 工具链并重启 Docker 服务以启用 GPU 支持。 #### 2. **构建 vLLM Docker 镜像** 创建一个自定义的 Dockerfile 文件来封装 vLLM 和其依赖项。以下是一个简单的示例: ```dockerfile FROM nvidia/cuda:12.0-base-ubuntu20.04 RUN apt-get update && \ apt-get install -y python3-pip git && \ pip3 install --upgrade pip setuptools wheel WORKDIR /app COPY . . RUN pip3 install -r requirements.txt CMD ["python", "main.py"] ``` 此文件假设项目根目录下有一个 `requirements.txt` 列出了所有 Python 库需求,并且入口点为 `main.py`。 #### 3. **启动多 GPU 实例** 一旦镜像构建完毕,就可以利用 `-e NVIDIA_VISIBLE_DEVICES=all` 参数让容器访问所有的可用 GPU 设备。对于更复杂的场景(如跨节点或多机),还需要额外考虑网络通信机制。 ```bash docker run --gpus all -it your_image_name bash ``` 如果要模拟特定数量或类型的 GPUs,则可调整参数如下所示: ```bash docker run --gpus '"device=0,1"' ... ``` 这里指定了仅两个显卡参与计算操作。 #### 4. **实施 Hierarchical Deployment (层次化部署)** 针对大规模集群中的高效资源分配问题,通常采用 master-slave 架构或者 tree-based topology 。具体做法包括但不限于: - Master 节点负责整体调度与协调; - Slave 或 Worker 节点专注于执行具体的子任务; 这种模式有助于减少单点瓶颈效应的同时提升吞吐能力。 --- ### 示例代码片段展示部分逻辑流程 下面给出一段伪代码用于说明主控单元如何向工作节点发送指令以及收集反馈数据的过程: ```python import socket from multiprocessing import Process def worker_task(ip_address, port_number): """Worker function that connects back to the central server.""" with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s: s.connect((ip_address, port_number)) while True: data = s.recv(1024).decode('utf-8') if not data or 'STOP' in data.upper(): break result = process_data(data) # Hypothetical processing step. s.sendall(str(result).encode()) if __name__ == "__main__": workers = [] for i in range(NUMBER_OF_WORKERS): # Define NUMBER_OF_WORKERS globally. p = Process(target=worker_task, args=("MASTER_IP", MASTER_PORT,)) p.start() workers.append(p) for w in workers: w.join() # Wait until each child process finishes its job. ``` 以上仅为概念验证性质的设计思路示意,请依据实际业务需求进一步完善相关组件的功能实现。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值