Docker -- 分布式处理与大数据平台-Hadoop

Hadoop

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。Hadoop主要基于java语言实现,由三个核心子系统组成:HDFS、YARN、MapReduce,其中HDFS是一套分布式文件系统;YARN是资源管理系统,MapReduce是运行在YARN上的应用,负责分布式处理管理。如果从操作系统的角度看,HDFS相当于Linux的ext3/ext4文件系统,而YARN相当于Linux的进程调度和内存分配模块。
Hadoop的核心子系统说明如下:
HDFS:一个高度容错性的分布式文件系统,适合部署在大量廉价的机器上,提供高吞吐量的数据访问。
YARN(Yet Another Resource Negotiator):资源管理器,可为上层应用提供统一的资源管理和调度,兼容多计算框架。
MapReduce:是一种分布式编程模型,把对大规模数据集的处理分发(Map)给网络上的多个节点,之后收集处理结果进行规约(Reduce)。
Hadoop还包括HBase(列数据库)、Cassandra(分布式数据库)、Hive(支持SQL语句)、Pig(流处理引擎)、Zookeeper(分布式应用协调服务)等相关项目。其生态系统如图所示:在这里插入图片描述

1 使用官方镜像

通过docker pull 指令直接使用Hadoop镜像:

$ docker search --filter=stars=100 hadoop
$ docker pull sequenceiq/hadoop-docker

镜像拉取后,使用docker run指令运行镜像,同时打开bash命令行:

$ docker run --name my-hadoop -it sequenceiq/hadoop-docker /etc/hadoop.sh -bash

查看各种配置信息和执行操作,例如查看namenode日志等信息:

bash-4.1# cat /usr/local/hadoop/logs/hadoop-root-namenode-d4adf23asf.out

验证hadoop环境是否安装成功。首先进入Hadoop容器的bash命令行环境,进入Hadoop目录:

bash-4.1# cd $HADOOP_PREFIX
bash-4.1# pwd
	/usr/local/hadoop

然后通过运行Hadoop内置的实例程序来进行测试:

bash-4.1# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grep input output 'dfs[a-z.]+'

最后使用hdfs指令检查输出结果:

bash-4.1# bin/hdfs dfs -cat output/*

2 相关资源

Hadoop的相关资源如下:
Hadoop 官网:http://hadoop.apache.org
Hadoop 镜像:https://hub.docker.com/r/sequenceiq/hadoop-docker/
Hadoop 镜像仓库:https://github.com/squenceiq/hadoop-docker
Hadoop Dockerfile:https://hub.docker.com/sequenceiq/hadoop-docker/~/dockerfile/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值