HDFS学习笔记

HDFS设计基础与可靠性

最新推荐文章于 2022-11-30 20:38:59 发布

原创最新推荐文章于 2022-11-30 20:38:59 发布 · 575 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#HDFS

hadoop 专栏收录该内容

10 篇文章

订阅专栏

HDFS的设计基础和目标:

1.硬件错误是常态，因此需要冗余

2.流式数据分析，即数据的批量读取而非随机读写，hadoop擅长做的是数据分析而不是数据处理

3.大规模数据集

4.简单一致性模型。为了降低系统复杂度，对文件采用一次性写多次读的逻辑设计，即是文件一经写入，关闭，就再也不能修改

5.程序采用‘数据就近’原则分配节点执行

Namenode

1.管理文件系统的命名空间

2.记录每个文件数据块在datanode上的位置和副本信息

3.协调客户端都文件的访问

4.记录命名空间内的改动和空间本身属性的改动

5.Namenode使用事务日志记录HDFS元数据的改动，使用映像文件存储文件系统的命名空间包括文件映射，文件关系等

Datanode

1.负责所在物理节点的存储信息

2.一次读入，不做修改

3.文件由数据块组成，典型的数据块大小为64M

4.数据块尽量散布在不同的节点

HDFS可靠性

1.冗余副本策略

2.机架侧罗

3.心跳机制

4.安全模式

5.校验和

6.回收站

7.元数据保护

8.快照机制

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lileizhang

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hadoop | HDFS 学习笔记（三）HDFS 读写流程 | NN、2NN、DN 工作机制 | FsImage与Edits的合并

希望每天都能进步一点点

01-18

1419

Hadoop3.1.3版本，关于HDFS的第三篇学习笔记，记录了NN、2NN、DN的工作机制，包括NN中Fsimage和Edits的合并机制，还有如何使用命令查看它们的内容

Hadoop | HDFS 学习笔记（二）HDFS Java API 环境搭建 | Java操作HDFS文件系统 | 多案例

希望每天都能进步一点点

01-17

3713

文章目录参考资料运行环境一、准备 HDFS Java API 环境1.1 在windows系统中准备Hadoop环境1.2 使本机连接集群节点1.2.1 域名映射1.2.2 路由转发1.3 使用 IDEA 创建 Maven 项目二、HDFS Java API 操作案例2.1 创建文件夹2.2 上传文件2.3 下载文件2.4 删除文件2.5 文件的更名和移动2.6 获取HDFS文件信息2.7 文件与文件夹的判断2.8 HDFS - API 配置参数优先级问题2.8.1 通过配置文件2.8.2 通过Config

参与评论您还未登录，请先登录后发表或查看评论

HDFS入门详解

weixin_34392435的博客

09-09

128

一.　　前提和设计目标 1.　　硬件错误是常态,因此需要冗余,这是深入到HDFS骨头里面去了　　HDFS可能由成百上千的服务器所构成，每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的，而且任一组件都有可能失效，这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和快速、自动的恢复是HDFS最核心的架构目标 2.　　流式数据访问即:数据批量读取而非随...

Hadoop生态圈之HDFS学习笔记

weixin_48626604的博客

03-07

666

Hadoop生态圈之HDFS 1.HDFS定义 HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位。其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器中各自的角色 HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变了 2.HDFS的优缺点优点：高容错性：数据自动保存多个副本。它通过增加副本的形式，提高容错性某一个副本丢失以后，它会自动恢复适合处理大数据

HDFS的学习笔记

weixin_45866849的博客

03-01

644

HDFS的学习笔记 HDFS是Google公司的 GFS 论文思想的实现，它有NameNode(名称节点)、DataNode(数据节点)、SecondaryNameNode(第二名称节点)组成。 GFS 是一个可扩展的分布式文件系统的设计思想，用于设计针对大型的、分布式的、对大量数据进行访问的文件系统。 1. HDFS简介 1.1 HDFS 概述 HDFS是基于流数据访问模式的分布式文件系统，其设计建立在："一次写入，多次读取"的基础上，提供高吞吐量、高容错性的数据访问，能很好地解决海量数据的存储问题

HDFS学习笔记20210913

weixin_45492179的博客

09-13

177

HDFS学习笔记20210913HDFSHDFS（Hadoop Distributed File System）HDFS的使用场景：HDFS优缺点HDFS组成架构HDFS文件块大小命令大全 HDFS HDFS（Hadoop Distributed File System）是一个文件系统 HDFS的使用场景：适合一次写入，多次读出的场景 HDFS优缺点 HDFS组成架构 HDFS文件块大小机械128 固态可以256 比较优的解命令大全 -setrep：设置HDFS中文件的副本数

HDFS学习笔记一

tea_jasmine的博客

11-26

176

HDFS 1. HDFS: Hadoop Distribute File System 分布式文件系统，由多台机器共同组成的. 2. HDFS优缺点: 优点: 数据的高可靠(副本机制) 支持处理的数据量很大可以构建到所谓的廉价服务器(其实一点不廉价) 缺点: 访问延迟高对小文件的存储效率低不支持并发写和文件随机修改 3. HDFS的架构: NameNode : 管理元数据负责处理客户端的读写请求下达指令给DN DataNode...

hadoop-hdfs学习笔记

Ramelon的博客

10-06

1256

HDFS概述 HDFS产出背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 HDFS定义 HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。 HDFS的使用场

Hadoop学习笔记——HDFS

成长过程

11-30

1809

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS的使用场景：适合一次写入，多次读出的场景。

HDFS学习笔记:HDFS JavaAPI编程

lrxcmwy2的博客

07-27

2007

HDFS Java 常用的API

【Hadoop HDFS学习笔记】HDFS基本学习

课桌

01-06

2930

文章目录HDFS文件系统HDFS设计的目标计算机集群的基本结构建构在上述物理结构之上的逻辑结构HDFS的基本架构HDFS命名空间管理通信协议客户端HDFS体系结构的局限性HDFS 的关键底层结构块（文件处理的基本单元）![在这里插入图片描述](https://img-blog.csdnimg.cn/2019010608455950.png)名称节点文件树状结构组织方式名称结点的关键数据结构（文件状...

Hadoop | HDFS学习笔记（一）HDFS优缺点、NN+DN+2NN组成架构、block文件块 | Shell操作 | HDFS常用命令汇总

希望每天都能进步一点点

01-17

2299

参考资料视频资料一、HDFS 背景以及定义背景：数据量越来越大，操作系统存不了所有数据，需要能管理多台机器上的文件的系统，即分布式文件管理系统，HDFS就是其中的一种。定义： HDFS，全称 Hadoop Distributed File System，是一个文件系统，通过目录树来定位文件，具有分布性，是由多个服务器联合起来实现的存储功能。适用场景：一次写入，多次读出。即一个文件经过创建、写入和关闭后就不需要改变的情况。二、HDFS 优缺点 2.1 优点高容错性：数据自动保

Data node 192.168.0.153:50010 is attempting to report storage ID DS-819066718-127.0.0.1-50010-14250

lileizhang的专栏

03-02

2632

50010-1425095741370. Node 192.168.0.22:50010 is expected to serve this storage. org.apache.hadoop.hdfs.protocol.UnregisteredDatanodeException: Data node 192.168.0.153:50010 is attempting to report sto

win8+hadoop1.2.1+eclipse4.4.2插件安装

lileizhang的专栏

03-03

1177

1.下载解压 1.下载hadoop1.2.1 http://apache.fayea.com/hadoop/common/hadoop-1.2.1/ hadoop-1.2.1.tar.gz 61M 2.下载eclipse4.4.2 http://www.eclipse.org/downloads/ Eclipse IDE for Java Developers, 155M 3.下

hadoop 单机部署方式

lileizhang的专栏

07-27

881

1.hadoop分为三种部署方式，分别为单机，伪分布式和集群部署

appstream-0.15.2-beta-javadoc.jar