03.分布式文件系统HDFS

最新推荐文章于 2025-06-08 18:31:41 发布

原创最新推荐文章于 2025-06-08 18:31:41 发布 · 1.5k 阅读

CC 4.0 BY-SA版权

文章标签：

30 篇文章

订阅专栏

本文详细介绍了Hadoop分布式文件系统HDFS的设计理念与实现机制，包括其架构、副本机制、环境搭建步骤以及通过Shell命令和Java API进行操作的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS
源自Google的GFS论文
发表于2003年，HDFS是GFS的克隆版

这里写图片描述
1个Master(NameNode/NN) 带 N个Slaves(DataNode/DN)
1个文件会被拆分成多个blocks
NN负责：

负责客户端请求的数据
负责元数据(文件的名称、副本系数、block存放的DN)的管理
DN的职责：
存储用户的文件对应的数据块(Block)
要定期向NN发送心跳信息，汇报本身及其所有的block信息及健康状况
A typical deployment has a dedicated machine that runs only the NameNode software. Each of the other machines in the cluster runs one instance of the DataNode software. The architecture does not preclude running multiple DataNodes on the same machine but in a real deployment that is rarely the case.
NameNode + N个DataNode
建议:NN和DN是部署在不同的节点上

这里写图片描述

hadoop伪分布式安装步骤

jdk安装
安装ssh
yum install ssh
ssh-keygen -t rsa
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
下载并解压hadoop
地址
解压:tar -zxvf hadoop-2.6.0-xxxx
hadoop配置文件的修改(hadoop_home/etc/hadoop)
修改hadoop-env.sh

修改core-site.xml

修改hdfs-site.xml

修改slaves
启动hdfs
格式化系统(仅第一次执行即可，不要重复执行): hdfs namenode -format

启动:hdfs:sbin/start-dfs.sh
验证是否启动成功:
方式1:jps

方式2
浏览器访问方式:http://localhost:50070
停止hdfs
sbin/stop-dfs.sh