代码未动,环境先行
我是一个Docker爱好者。我在学习大数据相关技术的时候,想到了一个点子:
- 用docker搭建一个大数据开发环境!
这么做有什么好处呢 ?
我只要有了这个docker-compose.yml 容器编排描述文件,我就可以在任何一个安装docker 软件的机器里,启动我的大数据环境。
一劳永逸的事情,不正是我们程序员每天都在做并且是努力的目标吗?
如何做?
找遍了国内的博客和帖子,都没有合适的答案。
我只能自己来。
docker hub
首先我去到docker hub 。 这个就是 github的 docker 版本。
我在里面搜索了 很多 Hadoop , spark 等等关键词,找到了一家公司;

这家公司 几乎把所有的 大数据组件都做成了 docker image 。 而且是细粒度,分角色 去划分的。真的太棒了。
比如 你现在看到的这个图片,就是 他针对于 Hadoop 中 namenode 这一角色做的docker image。如果你在其之上做一些封装和个性化定制将会变得特别容易。
于是我就从他的Registry 中找我想要的大数据组件
- Hadoop
- Hive
- Spark
easy , 全都找到了。
虚拟机
接线来我们就需要 在虚拟机中安装docker了。
什么 还需要虚拟机 ?
这里我说一下,安装一个虚拟机吧,windows 各种不方便。

最低0.47元/天 解锁文章
1229





