写在前面
之前写过一篇“Spark+Jupyter=在线文本数据处理逻辑测试平台”
[http://www.jianshu.com/p/bbd4190089e7]
这几天要把这玩意儿放到我自己的阿里云上线,供一些正在学习Python文本处理的基友们试用,然后按着之前的步骤又配了一次环境。这台服务器配置渣网速慢,光编译scipy就假死了好几次。就算有着自己写的教程一步步来都要烦死了。
生无可恋的我摊在桌子上,目光扫到了一本书——《Docker技术入门与实战》,心中突然就有一个作死的想法:干脆把这玩意儿容器化好了,数据处理+Spark听起来就很吸引人啊有木有。
说干就干,结合之前的教程我决定再来一次Docker版本的文本数据处理逻辑测试平台搭建。
事实上你可以把这篇文章看作是Docker入门操作的教程,因为里面主要讲述的是Docker的部署,修改与提交
准备工作
使用Docker的话其实是很有好处的,在Docker的镜像站里已经有人家搭好的基础款jupyter镜像,我们只需要往里面添加Spark环境即可。
同样默认使用的是Ubuntu或者Debian的机器,并且知道Docker是用来干什么的即可。
安装Docker
目前新版本的Ubuntu和Debian应该都能直接使用apt-get安装docker,运行以下命令即可
$apt-get -y install docker.io

本文档介绍了如何将Spark+Jupyter文本数据处理逻辑测试平台部署到Docker容器中,以简化环境配置。首先从Docker镜像站下载基础的Jupyter镜像,然后添加Spark环境。通过安装Docker、下载镜像、挂载文件、配置环境,最后打包镜像,实现平台的容器化。
最低0.47元/天 解锁文章
912





