3. hdfs原理分析

最新推荐文章于 2025-02-08 15:50:11 发布

转载最新推荐文章于 2025-02-08 15:50:11 发布 · 73 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/51runsky/p/4572416.html

1. HDFS （2.0）架构：

2. HDFS 设计思想：

HDFS数据块（block）:

文件被切分成固定大小的数据块
- 默认数据块大小为64MB，可配置
- 若文件大小不到64MB，则单独存成一个block
为何数据块如此之大
- 数据传输时间超过寻道时间（高吞吐率）
一个文件存储方式
- 按大小被切分成若干个block，存储到不同节点上
- 默认情况下每个block有三个副本

3. HDFS优缺点：

优点：

高容错性
- 数据自动保存多个副本
- 副本丢失后，自动恢复
适合批处理
- 移动计算而非数据
- 数据位置暴露给计算框架
适合大数据处理
- GB、TB、甚至PB级数据
- 百万规模以上的文件数量
- 10K+节点规模
流式文件访问
- 一次性写入，多次读取
- 保证数据一致性
可构建在廉价机器上
- 通过多副本提高可靠性
- 提供了容错和恢复机制

缺点：

低延迟数据访问
- 比如毫秒级
- 低延迟与高吞吐率
小文件存取
- 占用NameNode大量内存
- 寻道时间超过读取时间
并发写入、文件随机修改
- 一个文件只能有一个写者
- 仅支持append

4. HDFS 写流程：

5. HDFS 读流程：

6. HDFS副本放置策略：

问题：

一个文件划分成多个block，每个block存多份，如何为每个block选择节点存储这几份数据？

Block副本放置策略：

副本1: 同Client的节点上
副本2: 不同机架中的节点上
副本3: 与第二个副本同一机架的另一个节点上
其他副本:随机挑选

HDFS可靠性策略：

7. HDFS典型物理拓扑：

来自为知笔记(Wiz)

转载于:https://www.cnblogs.com/51runsky/p/4572416.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30675247

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

深入分析HDFS原理及读写流程

静待花开

03-12

8547

本文目录一、架构体系1.1、什么是HDFS？1.2、组成HDFS的各模块作用1.2.1、Client1.2.2、NameNode1.2.3、DataNode1.2.4、SecondaryNameNode二、数据读写2.1、读数据2.2、写数据三、优缺点一、架构体系 1.1、什么是HDFS？ HDFS即Hadoop Distributed File System的简称，采用Master/Slave...

1.6.HDFS的应用1

08-08

3. **选择HDFS存储数据的理由**： - **高容错性**：通过多副本机制，确保数据的高可用性。 - **批量处理**：适合处理大规模数据，通过移动计算而不是移动数据。 - **大量数据处理**：能处理PB级别的数据，适合...

参与评论您还未登录，请先登录后发表或查看评论

已解决org.apache.hadoop.hdfs.protocol.QuotaExceededException异常的正确解决方法，亲测有效！！！

小明的Java问道之路

03-13

2719

已解决org.apache.hadoop.hdfs.protocol.QuotaExceededException异常的正确解决方法，亲测有效！！！

3. HDFS原理深聊一下

庐州小白的博客

10-19

660

HDFS 是一个分布式文件系统，我们在前面也稍微讨论了一下集中式文件系统的一些弊端，我们还是从之前的那张HDFS架构图出发。当我们开始关注线条所代表的数据流向后，其实上图就可以看作是一个HDFS数据读写的流程图了。在探讨具体的读写之前，我们先看看不同节点中存储的数据。第3.1节再谈不同的节点应用程序所在的Client端先过滤掉，因为这个端只是承载了与用户的交互作用，其实就是一台接口机。用户在这台机器写代码、调用API与HDFS进行交互。我们前面说过，NameNode是集群的主控节点，管理HDF

HDFS报错--org.apache.hdfs.BlockMissingException

never_compromise2580的博客

05-04

8907

#问题：访问HDFS文件的时候报错org.apache.hdfs.BlockMissingException#问题分析：目前博主遇到的问题有两种一：问题分析A：存放指定块的DateNode进程都死了，客户端的请求没有响应肯定获取不到HDFS块#解决办法：首先可以在yarn的管理界面上查看集群的状况，那些Datenode节点死了。然后去对应的主机把进程起起来下面是博主自己的本机的环境，供参考B：遇到...

【java报错已解决】org.apache.hadoop.hdfs.protocol.QuotaExceededException

鸽芷咕的博客

11-25

1318

在Java开发涉及到大数据处理领域，尤其是使用Apache Hadoop框架时，经常会与Hadoop分布式文件系统（HDFS）打交道。然而，在这个过程中，开发者和环境配置者可能会遇到各种各样的报错信息，其中org.apache.hadoop.hdfs.protocol.QuotaExceededException就是一个较为常见且让人头疼的问题。当这个异常出现时，意味着在对HDFS进行操作时，超出了某种配额限制，这可能会导致相关操作无法正常进行，进而影响整个大数据处理流程。那么，接下来我们就深入剖析这个报

Hadoop HDFS NameNode核心原理分析

huxian1234的专栏

05-28

1207

胡弦，视频号2023年度优秀创作者，互联网大厂P8技术专家，Spring Cloud Alibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者，资深架构师，技术负责人，极客时间训练营讲师，四维口袋KVP最具价值技术专家，技术领域专家团成员，2021电子工业出版社年度优秀作者，获得2023电子工业出版技术成长领路人称号，荣获2024年电子工业出版社博文视点20周年荣誉专家称号。

Hadoop HDFS DataNode核心原理分析

huxian1234的专栏

05-28

1117

HDFS底层存储核心原理分析

huxian1234的专栏

11-29

994

HDFS基本原理

你爱的程序员的博客

02-08

724

HDFS(Hadoop Distributed File System):Hadoop分布式文件系统。是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的。

HDFS源码解析：教你用HDFS客户端写数据

华为云官方博客

12-30

1801

摘要：终于开始了这个很感兴趣但是一直觉得困难重重的源码解析工作，也算是一个好的开端。

大数据课程-Hadoop集群程序设计与开发-3.HDFS分布式文件系统_lk_edit.pptx

01-01

3. **Block（数据块）**：HDFS将文件分割为固定大小的块进行存储，默认大小为128MB。文件的每个块都会被复制到多个DataNode上以提供容错性，通常默认备份3份。块的复制策略确保了数据的可靠性和可用性，即使部分...

Hadoop HDFS原理分析，技术详解

12-01

"Hadoop HDFS原理分析" HDFS（Hadoop Distributed File System）是Hadoop项目的一部分，是一个分布式文件管理系统。HDFS的设计理念是为了存储和管理大量的数据，具有高容错性、可扩展性和高性能的特点。 HDFS的...

12-18

本教程旨在全面解析HDFS的核心概念、工作原理及实际应用场景，帮助读者深入理解这一关键的大数据存储解决方案。 HDFS是一种分布式文件系统，专为处理海量数据而设计，尤其适合一次性写入、多次读取的场景。当单台...

6HDFS原理篇.zip

05-19

【HDFS原理篇】在大数据领域，分布式文件系统HDFS（Hadoop Distributed File System）扮演着至关重要的角色。HDFS是Apache Hadoop项目的核心组成部分，它设计为在廉价硬件上运行，提供高容错性和高吞吐量的数据...

使用小波、EMD、SVD 分析进行手部运动检测.zip

最新发布

08-16

1.版本：matlab2014a/2019b/2024b 2.附赠案例数据可直接运行。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

【嵌入式系统】69字节帧数据解析：GPS坐标与时间戳传输协议分析

08-16

内容概要：本文档为一个名为《фреймы 69 байт.txt》的文本文件，主要记录了一系列十六进制数据帧及其对应的地理坐标和eph值。每个数据帧以“0x”开头表示十六进制数值，后面跟随具体的坐标信息（如49.9886168, 53.1024544）以及eph值（如7 eph 333）。这些数据帧共有五组，每组都包含不同的十六进制序列和坐标信息，最后还有一组异常的数据帧，其中包含大量0xFF和无效的十六进制值。; 适合人群：对十六进制数据解析、地理信息系统（GIS）、卫星通信或相关技术领域感兴趣的开发者、研究人员和技术爱好者。; 使用场景及目标：①用于研究或分析特定设备或系统传输的数据帧结构；②作为地理定位或卫星信号处理的研究样本；③帮助理解和解析类似十六进制编码的数据流。; 其他说明：文档中的数据帧可能来自某种传感器或通信设备，但具体来源和用途未明确说明。最后一组数据帧包含大量无效值，可能是设备故障或传输错误导致。建议结合实际应用场景和技术背景进行深入分析。

sssd-dbus-2.5.2-2.el8_5.3.tar.gz

08-16

# 适用操作系统：Centos8 # Step1、解压 tar -zxvf xxx.el8.tar.gz # Step2、进入解压后的目录，执行安装 sudo rpm -ivh *.rpm

【编程语言领域】Kotlin函数式编程与跨平台开发详解：多范式编程特性及应用案例分析

08-16

内容概要：本文深入探讨了Kotlin语言在函数式编程和跨平台开发方面的特性和优势，结合详细的代码案例，展示了Kotlin的核心技巧和应用场景。文章首先介绍了高阶函数和Lambda表达式的使用，解释了它们如何简化集合操作和回调函数处理。接着，详细讲解了Kotlin Multiplatform（KMP）的实现方式，包括共享模块的创建和平台特定模块的配置，展示了如何通过共享业务逻辑代码提高开发效率。最后，文章总结了Kotlin在Android开发、跨平台移动开发、后端开发和Web开发中的应用场景，并展望了其未来发展趋势，指出Kotlin将继续在函数式编程和跨平台开发领域不断完善和发展。; 适合人群：对函数式编程和跨平台开发感兴趣的开发者，尤其是有一定编程基础的Kotlin初学者和中级开发者。; 使用场景及目标：①理解Kotlin中高阶函数和Lambda表达式的使用方法及其在实际开发中的应用场景；②掌握Kotlin Multiplatform的实现方式，能够在多个平台上共享业务逻辑代码，提高开发效率；③了解Kotlin在不同开发领域的应用场景，为选择合适的技术栈提供参考。; 其他说明：本文不仅提供了理论知识，还结合了大量代码案例，帮助读者更好地理解和实践Kotlin的函数式编程特性和跨平台开发能力。建议读者在学习过程中动手实践代码案例，以加深理解和掌握。

03-23

总结起来，我需要将这些思考整理成清晰的步骤，确保用户能够逐步排查和解决问题，同时解释每个步骤的原因和操作方法，帮助用户理解背后的原理，避免未来再次出现类似问题。</think>--- ### 错误核心分析日志中关键...