初始HDFS(hadoop distributed file system)

浅析HDFS分布式文件系统

最新推荐文章于 2025-12-01 15:54:47 发布

原创最新推荐文章于 2025-12-01 15:54:47 发布 · 124 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #mapreduce #hbase

本文通过动画形式深入浅出地介绍了Hadoop Distributed FileSystem（HDFS）的基本概念、核心流程及容错机制，帮助读者快速理解并掌握HDFS的工作原理。

初次接触HDFS（Hadoop Distributed File System），主动或者被动地了解一些相关知识，也有同事给我们分享过，但是大多是一些概念把我们唬住了，很难有个清晰的认识和进一步了解的前提，借此论坛的机会，整理一点，我想可以轻松愉快的快速认识一下HDFS。”

[img]http://dl2.iteye.com/upload/attachment/0096/6345/aa9c7882-6178-3521-af06-08bed817b7b7.png[/img]

影片名称：HDFS分布式文件系统

上映时间：2004年X月，至今翻拍多版

主要演员：client、namenode、datanode

编剧导演：Doug Cutting等

发行方式：Open开源

发行机构：Apache

影片语言：Java

影片类型：科技教育动漫

影迷评分：7.9分/

相关影片：GFS、HBASE、MAPREDUCE、HIVE、PIG、ZOOKEEPER等

影片简介：HDFS是Hadoop生态系统的一员，意思如同名称分布式文件系统……

◆影片开始，都会列出主要演员（The Cast）

[img]http://dl2.iteye.com/upload/attachment/0096/6352/e6079be2-b81a-369e-8b5d-9bb7fa5b8c89.png[/img]

客户端：对HDFS的操作都要通过我，你们别指望越过我，其他人不会搭理你；

元数据节点：我是独一无二的，当然除了我的备胎（我要是死了，备胎就是我，等我复活以后，我就变成备胎了），这里的事情都要协调，看出来了吧，我是主角；

数据节点：我们，我们是存储数据用的，我们是群众演员，一般都是有很多的，我们可以死，但是也不能死太多；

◆正式故事（第一节），向HDFS里面写数据（Writing Data In HDFS Cluster）

○用户请求（Request From User）

[img]http://dl2.iteye.com/upload/attachment/0096/6354/efe9492b-ed0b-39d3-8721-22ae05af1e9b.png[/img]

○数据块和拷贝（Block And Replaction）

[img]http://dl2.iteye.com/upload/attachment/0096/6358/8257abc8-4602-359b-8086-c67614bd2964.png[/img]

○切割文件成块（Divide File Into BLocks）

[img]http://dl2.iteye.com/upload/attachment/0096/6360/169c1753-fcb6-3da1-8747-1cc71b2c80ef.png[/img]

○询问元数据节点（Ask NameNode）

[img]http://dl2.iteye.com/upload/attachment/0096/6364/d765dd52-d555-397a-86f2-750370306400.png[/img]

○元数据节点选用数据节点（NameNode Assigns DataNodes）

[img]http://dl2.iteye.com/upload/attachment/0096/6366/eb6904c2-d46d-319c-8890-7e6d6b7f2b28.png[/img]

○客户端开始写数据（Client Starts Writing Data）

[img]http://dl2.iteye.com/upload/attachment/0096/6368/bf44310d-6f23-3fdb-ae25-df4a2fd3a24e.png[/img]

○通知元数据节点操作完成（Infrom NameNode When Done）

[img]http://dl2.iteye.com/upload/attachment/0096/6372/ec27571d-35d8-3fb8-91cc-fa9eea13204b.png[/img]

○全部数据块写完（When All Blocks Are Written）

[img]http://dl2.iteye.com/upload/attachment/0096/6374/c8e18f0e-29ec-3984-8655-8d2f84aa68f3.png[/img]

○正式故事（上）扼要重述（Rcap）

[img]http://dl2.iteye.com/upload/attachment/0096/6376/68312a13-1174-39b1-9556-f23ec277cdb4.png[/img]

◆正式故事（第二节），从HDFS中读取数据（Reading Data From HDFS Cluster）

○用户请求（Request From User）

[img]http://dl2.iteye.com/upload/attachment/0096/6378/0b064b43-9d2d-36a9-ba24-d95583b6f37a.png[/img]

○首先联系元数据节点（Contact NameNode First）

[img]http://dl2.iteye.com/upload/attachment/0096/6380/0647de27-95d9-3f58-a1ee-5eb4d37a4ff5.png[/img]

○下载数据（DownLoad Data）

[img]http://dl2.iteye.com/upload/attachment/0096/6382/ab91aa7e-e4f7-3fa6-9d74-4ca07d666ee8.png[/img]

◆正式故事（第三节），HDFS容错性能

○错误类型和检错（Types Of Faults And Their Detection）

错误一：节点错误

[img]http://dl2.iteye.com/upload/attachment/0096/6384/063fd28c-64cf-36cf-9e09-b2088d473ef4.png[/img]

错误二：通讯错误

[img]http://dl2.iteye.com/upload/attachment/0096/6386/d323c2db-172c-3774-b616-c76a5ebd5670.png[/img]

错误三：数据错误

[img]http://dl2.iteye.com/upload/attachment/0096/6388/ebae495a-d2a3-3795-9545-03fba297acc3.png[/img]

检错一：节点错误

[img]http://dl2.iteye.com/upload/attachment/0096/6390/ef20cda6-7286-30cb-8039-ee0a69b16e33.png[/img]

检错二：网络错误

[img]http://dl2.iteye.com/upload/attachment/0096/6399/bc116387-aeeb-3a5a-a503-c9ac7a068e37.png[/img]

检错三：数据错误

[img]http://dl2.iteye.com/upload/attachment/0096/6401/e327bc28-4cca-345e-87a4-8f5097430b71.png[/img]

○处理数据读写错误（Handling Reading And Writing Failures）

处理写数据错误

[img]http://dl2.iteye.com/upload/attachment/0096/6403/5cf5a04f-acab-3256-909f-2277309e38b8.png[/img]

处理读数据错误

[img]http://dl2.iteye.com/upload/attachment/0096/6405/18a9f857-519b-3405-8175-bc3695f77a39.png[/img]

○处理节点错误

[img]http://dl2.iteye.com/upload/attachment/0096/6407/34c8c5b8-eed4-3e61-8d4a-9273dad6bdfa.png[/img]

◆正式故事（第四节），拷贝的位置策略（Replica Placement Strategy）

[img]http://dl2.iteye.com/upload/attachment/0096/6407/34c8c5b8-eed4-3e61-8d4a-9273dad6bdfa.png[/img]

○机架和数据节点(Racks and DataNode)

[img]http://dl2.iteye.com/upload/attachment/0096/6416/39614d7f-5833-38b4-8152-4f639ce47dad.png[/img]

○选择第一个拷贝位置（Selecting First Replica Location）

[img]http://dl2.iteye.com/upload/attachment/0096/6435/ae132d28-705a-31f1-9573-61c67860e09f.png[/img]

○剩下两个拷贝位置（Next Two Replica Location）

[img]http://dl2.iteye.com/upload/attachment/0096/6441/74650c11-c72c-3ef4-9b1c-924099973c33.png[/img]

○后来的拷贝所放位置（Subsquent Replica Locations）

[img]http://dl2.iteye.com/upload/attachment/0096/6445/18c2d9cd-5ddc-39d7-b8f8-347e2fa8b9d9.png[/img]

◆后记（Where to go From here?）

[img]http://dl2.iteye.com/upload/attachment/0096/6447/e24685f5-bd92-37db-9e08-676d90c480e9.png[/img]

HDFS分布式文件系统介绍完了，是不是感觉像放电影一样，我想看完后，你对HDFS一定有一个大概认识，貌似也不是很困难，不过这只是个开始，我也是在网上找到这幅漫画的，分享给大家，希望可以让你对学习Hadoop提供一点信心吧，愉快的学习，我们知道公司和客户都在推进各个系统的云化工作，我想这些东西以后也是我们必备的知识吧。