Docker 搭建的大数据环境，一键启停

最新推荐文章于 2025-07-03 11:37:37 发布

原创

最新推荐文章于 2025-07-03 11:37:37 发布 · 2k 阅读

4 ·

CC 4.0 BY-SA版权

代码未动，环境先行

我是一个Docker爱好者。我在学习大数据相关技术的时候，想到了一个点子：

用docker搭建一个大数据开发环境！

这么做有什么好处呢？

我只要有了这个docker-compose.yml 容器编排描述文件，我就可以在任何一个安装docker 软件的机器里，启动我的大数据环境。
一劳永逸的事情，不正是我们程序员每天都在做并且是努力的目标吗？

如何做？

找遍了国内的博客和帖子，都没有合适的答案。
我只能自己来。

docker hub

首先我去到docker hub 。这个就是 github的 docker 版本。
我在里面搜索了很多 Hadoop ， spark 等等关键词，找到了一家公司；

Docker 搭建的大数据环境，一键启停

这家公司几乎把所有的大数据组件都做成了 docker image 。而且是细粒度，分角色去划分的。真的太棒了。
比如你现在看到的这个图片，就是他针对于 Hadoop 中 namenode 这一角色做的docker image。如果你在其之上做一些封装和个性化定制将会变得特别容易。

于是我就从他的Registry 中找我想要的大数据组件

Hadoop
Hive
Spark

easy , 全都找到了。

虚拟机

接线来我们就需要在虚拟机中安装docker了。
什么还需要虚拟机？
这里我说一下，安装一个虚拟机吧，windows 各种不方便。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

千锋python和唐唐

关注关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大数据领域数据工程的自动化部署工具

AI天才研究院

09-04

1232

本文将聚焦大数据领域数据工程的自动化部署工具，从“为什么需要自动化部署”讲起，系统梳理主流工具的分类、原理与适用场景，通过实战案例演示如何组合工具搭建完整的自动化部署流程，并提供工具选型的决策框架。无论你是刚入门的数据工程师，还是希望优化现有流程的团队负责人，都能从中找到落地指南。核心目标：将服务器、网络、存储等基础设施（如AWS EC2实例、Hadoop集群配置）用代码定义，实现“环境可版本化、可复制”。：创建K8s命名空间（spark-jobs）和ConfigMap（挂载输入文件input.txt。

最新5万字长文：Docker 100道面试题及参考答案

大模型大数据攻城狮的专栏

04-25

1955

编写Dockerfile：Dockerfile是一个文本文件，包含了创建镜像所需的所有命令。使用Dockerfile构建镜像：使用命令根据Dockerfile构建镜像。运行容器：使用新创建的镜像运行容器，测试镜像的功能。具体步骤创建Dockerfile：在项目目录中创建一个名为Dockerfile的文件，并编写构建镜像所需的指令。"]构建镜像：在包含Dockerfile的目录下运行以下命令来构建镜像。运行容器：使用新创建的镜像运行容器。

2 条评论您还未登录，请先登录后发表或查看评论

2 条评论

exingfan1369 2021.03.03
大佬你这yml文件有最新的么

心之所向� 2020.07.29
很多文件都没有跑不起来有完整的目录包含hadoop-hive.env. 还报错ERROR: No such service: hive-metastore-postgresqldocker-compose

Docker方式部署大数据环境

smollcat的博客

07-16

1079

Hadoop伪集群部署 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File System）。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据

利用Docker搭建大数据处理集群

最新发布

小谷的博客

07-03

2410

本文介绍了在Windows11/WSL2环境下使用Docker和Docker Compose搭建大数据开发环境的完整流程。通过分步构建基础镜像和HBase/Hive/Spark镜像，配置ZooKeeper、PostgreSQL、HDFS等核心服务，并验证各服务运行状态。项目包含服务依赖管理、容器配置、初始化脚本以及Web UI访问验证，提供了一套完整的大数据开发环境搭建方案。特别说明了Spark客户端的配置方法和服务验证顺序，确保各组件协同工作。

大数据 Docker Hadoop 环境搭建

MrBlueSky的博客

12-09

1205

公司做某行数据中台POC，要添加大数据处理数据源，做为数据查询数据源引擎。快搭建做POC测试使用。此文件基础Docker技术，如何搭建Docker及使用请点击这里。

大数据 Docker Hbase 集群环境搭建

MrBlueSky的博客

12-19

813

为搭建hbase集群环境，请预先搭建Zookeeper环境及Hadoop环境。此文基础Docker及Docker-compose技术，如何搭建Docker及使用请点击这里Hbase官方网站搭建版本:2.5.10系统环境: centos7.9.2009Zookeeper搭建Hadoop集群环境搭建。

基于docker-compose搭建zk+kafka+storm分布式集群

所有服务均通过docker-compose.yml文件定义，利用Docker Compose的多容器编排能力实现一键启停、依赖控制和服务发现。部署前需预先安装Docker CE及docker-compose工具，并配置各宿主机的/etc/hosts文件以建立主机名...

1.Docker学习之基础知识

WeiyiGeek 唯一极客IT知识分享

06-24

603

0x00 Docker 快速入门1.基础介绍2.Docker 架构3.Docker 资源隔离4.Docker 容器文件系统0x01 Docker 安装1. Linux2. Windows3. MAC4. 加速器配置0x02 Docker 核心概念1.镜像 [image]2.容器 [Container]3.仓库 [Repository]0x03 Docker 数据管理1.数...

大数据平台环境搭建

m0_46635662的博客

03-10

7298

大数据平台环境搭建（最详细最全面最无脑）

基于虚拟机hadoop集群hive2.1.1配置文件

10-24

基于虚拟机搭建的hadoop集群，一个master和三个slaves，hive配置文件仅供参考！

基于docker一键部署大数据环境以及基本命令

小星博博的博客

01-19

521

【代码】基于docker一键部署大数据环境。

利用docker搭建服务器集群并部署大数据生态软件

Axlsss的博客

11-21

4321

小而美！利用docker搭建服务器集群并部署大数据软件集群

Docker容器搭建大数据集群

qq_33202785的博客

10-23

4531

Docker容器搭建大数据集群，包含Hadoop,Mysql,Hive,Flume,Zookeeper,HBASE,SQOOP,Kafaka,Spark,Redis

大数据——hadoop环境安装（docker搭建）

weixin_42789698的博客

12-03

4236

###### 这个Dockerfile主要是基于CentOS镜像进行一些系统设置和软件安装，最终生成一个包含SSH服务的镜像。####### dockerfile的内容# 基础镜像# 作者# 将工作目录切换到`/etc/yum.repos.d/`# 使用sed命令注释掉mirrorlist行。# 使用sed命令将baseurl修改为`http://vault.centos.org`。# 更新yum缓存。# 使用yum更新系统软件。# 使用yum安装openssh-server和sudo。

虚拟机实现Hive与MySQL的安装

qq_54542910的博客

11-19

2632

虚拟机mysql的下载以及hive的安装

windows虚拟机中配置Hadoop Hive(二)

liuluTL的博客

03-18

1569

文章目录windows虚拟机中配置Hadoop Hive(二)一利用Xftp将软件包上传到Linux中二配制免密登录三解压软件包到/opt/module四编辑环境变量：五重新加载该文件使环境变量生效六修改hadoop的配置文件: windows虚拟机中配置Hadoop Hive(二) 完全分布式:Hadoop守护进程运行在一个集群上伪分布式:在单节点集群上运行Hadoop,其中所有...

Linux虚拟机安装Hive(mysql安装)

平淡中造就不平凡

12-30

3842

Hive发展至今，总共历经了两代客户端工具第一代客户端（deprecated不推荐使用）：$HIVE_HOME/bin/hive, 是一个 shellUtil。主要功能：一是可用于以交互或批处理模式运行Hive查询；二是用于Hive相关服务的启动，比如metastore服务。第二代客户端（recommended 推荐使用）：$HIVE_HOME/bin/beeline，是一个JDBC客户端，是官方推荐使用的Hive命令行工具，和第一代客户端相比，性能加强安全性提高。

Spark快速大数据处理

04-24

课程的主要内容包括： 1.ZooKeeper-分布式过程协同组件2.Hadoop3-大数据基础组件3.Tez-Yarn底层计算引擎4.Hive3-大数据仓库5.Spark2实时大数据处理6.Oozie5-大数据流程引擎课程特点： 1.最新API: Hadoop3/Spark2/Hive3/Oozie52.手工搭建集群环境:编译+搭建3.配套资源:分阶段镜像+课件+安装资源，其中安装资源包括案例源码、脚本等4.案例为主:分模块案例+天池数据分析竞赛5.故障教学6.完整实战项目:天池数据分析