Hadoop环境搭建（ubuntu+hadoop2.7 - 伪分布式）

原创

于 2017-05-22 22:28:16 发布 · 3.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#hadoop #HDFS #mapreduce #伪分布式

本文详细介绍了如何在Ubuntu系统中搭建Hadoop 2.7的伪分布式环境，包括Hadoop的基本原理、环境准备、安装步骤、配置修改以及环境测试。通过这个过程，读者将理解HDFS和MapReduce的工作机制，并能成功运行Hadoop的单机模式和伪分布式模式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop简介

在进行环境搭建之前，先简要回顾一下Hadoop的基本知识。

Hadoop背景

Hadoop是面向集群的分布式并行计算框架（cluster、distributed、parallel），其核心组成是HDFS分布式文件系统和MapReduce并行编程模型。在开发者的业务背景下（如数据分析项目），Hadoop可被视为一套工具，它解决了并行计算中的种种复杂问题（如分布式存储，任务调度，负载均衡，容错机制…），让我们能够绕开底层细节，专注于业务自身的实现。

Hadoop主要经历了Hadoop1和Hadoop2两个时代，Hadoop2在Hadoop1的HDFS+MapReduce的基础上，引入了YARN资源管理系统，hadoop核心区别如下图示：

这里写图片描述

Hadoop的快速发展与大数据、云计算等新兴领域的崛起相辅相成，围绕Hadoop形成的生态系统现已十分庞大，相关内容按下不表。

基本原理回顾

这里简要回顾一下Hadoop的基本工作机制，包括HDFS和MapReduce两部分。

HDFS

HDFS（Hadoop-分布式文件系统）遵循主从架构（Master-Slave）模式。一个主节点NameNode，负责整个文件系统命名空间（NameSpace）的管理与维护，同时面向客户端（HDFS Client）提供文件读写等操作控制；多个从节点DataNode则构成文件实际的存储集群。此外HDFS为提升系统生存弹性而精心设计了副本机制(Replication)。其它需明确的HDFS术语包括：块（Block）、通信包（Packet）、源数据（MetaData）、Secndary NameNode冷备份等等。

HDFS的架构示意图如下所示：

文件系统最基本的任务是读/写，对于HDFS为用户（Client）提供了完备的读写接口。基本的模式是通过访问NameNode的命名空间映射信息，建立起Client与DataNode File之间的读写通道，生成流对象来进行读写操作。下图是读写文件示意图：

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。