自己动手写docker-3

最新推荐文章于 2024-09-15 09:05:08 发布

转载最新推荐文章于 2024-09-15 09:05:08 发布 · 533 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://juejin.im/post/5c15f46fe51d452c030d3a7d

文章标签：

#运维 #shell

本文详细介绍了Docker容器的构建过程，包括创建新的命名空间、在新命名空间中执行初始化操作，以及如何通过mount命令正确配置共享子树。此外，还深入探讨了容器资源隔离的实现，特别是cgroup在内存子系统中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3.构造容器

示例代码

3.1 构造实现run 命令版本的容器

类似这么启动./myDocker run -ti /bin/bash

大致流程

1. 调用自己创建新的namespace

func NewParentProcess(tty bool, command string) *exec.Cmd {
	args := []string{"init", command}
	cmd := exec.Command("/proc/self/exe", args...)
	cmd.SysProcAttr = &syscall.SysProcAttr{
		Cloneflags: syscall.CLONE_NEWUTS | syscall.CLONE_NEWPID | syscall.CLONE_NEWNS |
			syscall.CLONE_NEWNET | syscall.CLONE_NEWIPC,
	}
	if tty {
		cmd.Stdin = os.Stdin
		cmd.Stdout = os.Stdout
		cmd.Stderr = os.Stderr
	}
	return cmd
}
// 之后调用cmd.Start(), 调用自己传入了init，自身处理Init传参如下
复制代码

2.在新的namespace中进行init操作并执行命令(例如`/bin/bash`)

func RunContainerInitProcess(command string, args []string) error {
	logrus.Infof("command %s", command)

	defaultMountFlags := syscall.MS_NOEXEC | syscall.MS_NOSUID | syscall.MS_NODEV
	syscall.Mount("", "/", "", syscall.MS_PRIVATE | syscall.MS_REC, "")
	// 需要加上上面一行，源码有误，或者见后面的坑的修改方法，同时这个方法会返回error最好捕捉下,MS_REC为目录子树递归的创建绑定挂载
	syscall.Mount("proc", "/proc", "proc", uintptr(defaultMountFlags), "")
	argv := []string{command}
	if err := syscall.Exec(command, argv, os.Environ()); err != nil {
		logrus.Errorf(err.Error())
	}
	return nil
}
复制代码

关于mount namespace和共享子树
mount namespaces提供了过度的隔离,如果完全隔离,一个挂在可能需要在所有的namespace都挂载一遍
mount 时关于共享提供了4个参数MS_SHARED， MS_PRIVATE，MS_SLAVE，MS_UNBINDABLE
有个坑，例如ubuntu18中，默认挂载时shared,可以通过/proc/$pid/mountinfo

需要重新设置下sudo mount --make-rprivate / 不然namespace里面修改/proc会影响其他namespace里面的/proc（应该只对此行命令之后的子进程等适用）
修改之后

其他使用unshare创建新的namespace shell:$unshare --user --mount --ipc --pid --net --uts -r --fork --propagation private bash

3.2 增加容器资源隔离

大致流程

主要逻辑就是捕获参数修改hierarchy文件系统：以下为控制cgroup的相关代码，以memory子系统为例,

package subsystems

import(
	"fmt"
	"io/ioutil"
	"os"
	"path"
	"strconv"
)

type MemorySubSystem struct {
}

func (s *MemorySubSystem) Set(cgroupPath string, res *ResourceConfig) error {
	if subsysCgroupPath, err := GetCgroupPath(s.Name(), cgroupPath, true); err == nil {
		if res.MemoryLimit != "" {
			if err := ioutil.WriteFile(path.Join(subsysCgroupPath, "memory.limit_in_bytes"), []byte(res.MemoryLimit), 0644); err != nil {
				return fmt.Errorf("set cgroup memory fail %v", err)
			}
		}
		return nil
	} else {
		return err
	}

}

func (s *MemorySubSystem) Remove(cgroupPath string) error {
	if subsysCgroupPath, err := GetCgroupPath(s.Name(), cgroupPath, false); err == nil {
		return os.RemoveAll(subsysCgroupPath)
	} else {
		return err
	}
}


func (s *MemorySubSystem) Apply(cgroupPath string, pid int) error {
	if subsysCgroupPath, err := GetCgroupPath(s.Name(), cgroupPath, false); err == nil {
		if err := ioutil.WriteFile(path.Join(subsysCgroupPath, "tasks"),  []byte(strconv.Itoa(pid)), 0644); err != nil {
			return fmt.Errorf("set cgroup proc fail %v", err)
		}
		return nil
	} else {
		return fmt.Errorf("get cgroup %s error: %v", cgroupPath, err)
	}
}


func (s *MemorySubSystem) Name() string {
	return "memory"
}
复制代码

对于GetCgroupPath方法其实做了以下事情

根据/proc/self/mountinfo 找出对应的hierarchy的虚拟文件系统
此文件每行类似(此行为memory 挂载的hierarchy文件系统) :
46 32 0:41 / /sys/fs/cgroup/memory rw,nosuid,nodev,noexec,relatime shared:24 - cgroup cgroup rw,memory, 根据最后的memory 找到/sys/fs/cgroup/memory,
最终此文件夹下创建cgroup文件夹名就是传入的参数cgroupPath，然后在cgroup下修改限制(Set)或在tasks文件中增加pid(Apply)