写在前面
之前写过一篇“Spark+Jupyter=在线文本数据处理逻辑测试平台”
[http://www.jianshu.com/p/bbd4190089e7]
这几天要把这玩意儿放到我自己的阿里云上线,供一些正在学习Python文本处理的基友们试用,然后按着之前的步骤又配了一次环境。这台服务器配置渣网速慢,光编译scipy就假死了好几次。就算有着自己写的教程一步步来都要烦死了。
生无可恋的我摊在桌子上,目光扫到了一本书——《Docker技术入门与实战》,心中突然就有一个作死的想法:干脆把这玩意儿容器化好了,数据处理+Spark听起来就很吸引人啊有木有。
说干就干,结合之前的教程我决定再来一次Docker版本的文本数据处理逻辑测试平台搭建。
事实上你可以把这篇文章看作是Docker入门操作的教程,因为里面主要讲述的是Docker的部署,修改与提交
准备工作
使用Docker的话其实是很有好处的,在Docker的镜像站里已经有人家搭好的基础款jupyter镜像,我们只需要往里面添加Spark环境即可。
同样默认使用的是Ubuntu或者Debian的机器,并且知道Docker是用来干什么的即可。
安装Docker
目前新版本的Ubuntu和Debian应该都能直接使用apt-get安装docker,运行以下命令即可
$apt-get -y install docker.io