1.背景
我的分布式爬取系统是否可以使用docker?
我的10台 探测服务器的部署是否可以用到docker? (涉及到环境配置、库和组件的安装、上传数据、下载数据…)
2.Docoker的出现背景
-
软件开发中环境配置太繁琐,操作系统的设置、库和组件的安装。
-
软件迁移的时候能否考虑把原始环境也一样复制?
现有的解决方案:
2.1虚拟机
缺点:
占用资源多====虚拟机的运行需要几百MB
冗余步骤多===系统级别的步骤无法跳过
启动慢
2.2Linux容器
用于解决虚拟机存在的问题。**Linux 容器不是模拟一个完整的操作系统,而是对进程进行隔离。**或者说,在正常进程的外面套了一个保护层。对于容器里面的进程来说,它接触到的各种资源都是虚拟的,从而实现与底层系统的隔离。由于容器是进程级别的,相比虚拟机有很多优势。
优点
(1)启动快
容器里面的应用,直接就是底层系统的一个进程,而不是虚拟机内部的进程。所以,启动容器相当于启动本机的一个进程,而不是启动一个操作系统,速度就快很多。
(2)资源占用少
容器只占用需要的资源,不占用那些没有用到的资源;虚拟机由于是完整的操作系统,不可避免要占用所有资源。另外,多个容器可以共享资源,虚拟机都是独享资源。
(3)体积小
容器只要包含用到的组件即可,而虚拟机是整个操作系统的打包,所以容器文件比虚拟机文件要小很多。
总之,容器有点像轻量级的虚拟机,能够提供虚拟化的环境,但是成本开销小得多。
3.学习连接
- http://www.ruanyifeng.com/blog/2018/02/docker-tutorial.html
- https://mp.weixin.qq.com/s?__biz=MzI4Njg5MDA5NA==&mid=2247484574&idx=1&sn=9ce4589efc377ba0f93e7513969164d9&chksm=ebd7459fdca0cc893f64895f536277bd4a024721b022382875197e87cc727495e4dd458ea337&token=188447648&lang=zh_CN#rd
- https://zhuanlan.zhihu.com/p/54512286
4.什么是Docker?
Docker 的主要用途,目前有三大类。
**(1)提供一次性的环境。**比如,本地测试他人的软件、持续集成的时候提供单元测试和构建的环境。
**(2)提供弹性的云服务。**因为 Docker 容器可以随开随关,很适合动态扩容和缩容。
**(3)组建微服务架构。**通过多个容器,一台机器可以跑多个服务,因此在本机就可以模拟出微服务架构。
所以,我的分布式爬取是可以使用docker的!!!
下周计划,使用scrapy爬虫框架,结合redis数据库、和mongodb数据库。 学习反爬虫的处理,并且使用docker容器。
5.docker的实现原理
5.1 解决环境问题
将我们的想要的环境构建(打包)成一个镜像,然后我们可以推送(发布)到网上去。想要用这个环 境的时候,在网上拉取一份就好了。
5.2解决应用之间隔离
Docker底层用的Linux的cgroup和namespace这两项技术来实现应用隔离.在Linux内核中,提供了cgroups功能,来达成资源的区隔化。它同时也提供了名称空间(namespace)区隔化的功能,使应用程序看到的操作系统环境被区隔成独立区间,包括进程树,网络,用户id,以及挂载的文件系统。简单来说就是:LXC是一个为Linux内核包含特征的用户接口。通过强大的API和简单的工具,它可以让Linux用户轻松的创建和托管系统或者应用程序容器。
使用Docker的方式
-
将软件的环境打包成镜像,用的时候直接拉取镜像==镜像会比较大
-
可以用dockerfile记录镜像的创建过程。
正常的项目创建的过程中。 dockerfile也放在项目源码中,一起提交。因此,有源码就可以重新打镜像,并且从dockerfile中还可以知道项目的依赖环境和运行方式。但是实际上,在网络比较好的情况下下载一个镜像一般比重新打一个镜像更快,所以最终的部署还是基于镜像
整个项目的开发流程
6.常见的概念
6.1镜像和容器的联系和区别
- 把镜像运行起来的就是容器
- 镜像像代码,容器像进程。 代码放在硬盘上,把代码运行起来就能形成一个进程,进程才是跑出来的程序,
- 镜像运行起来,就形成一个容器,容器才是真正跑起来的程序。
- 在docker中,我们可以进入容器,做一些操作,然后再把容器中的改动提交形成一个新的镜像。
6.2镜像仓库的概念
- 镜像类比代码,镜像仓库类比github,写好的代码提交到github上进行保存和管理,方便下载。