怎么改变HDFS块大小

最新推荐文章于 2025-05-20 10:59:13 发布

慢生活家

最新推荐文章于 2025-05-20 10:59:13 发布

阅读量3.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： Hadoop 文章标签： hdfs

本文链接：https://blog.youkuaiyun.com/u010230476/article/details/40475767

Hadoop 专栏收录该内容

12 篇文章

订阅专栏

1.上传test1.txt
[hadoop@Master hadoop]$ hadoop fs -put /home/hadoop/input/test1.txt /usr/hadoop/in
Warning: $HADOOP_HOME is deprecated.

2.查看上传的文件大小

[hadoop@Master hadoop]$ hadoop fs -stat "%o" /usr/hadoop/in/test1.txt
Warning: $HADOOP_HOME is deprecated.

67108864

3.修改hdfs-site.xml配置文件，增加全局参数dfs.block.size

        <property>
                 <name>dfs.block.size</name>
                 <value>512000</value>
         </property>

注意：blockSize必须是io.bytes.per.checksum的整数倍，否则会报错

put: io.bytes.per.checksum(512) and blockSize(100000) do not match. blockSize should be a multiple of io.bytes.per.checksum

4.再上传test1.txt文件

[hadoop@Master bin]$ hadoop fs -put /home/hadoop/input/test1.txt /usr/hadoop/in/test1000.txt

5.查看test1000.txt文件大小

[hadoop@Master bin]$ hadoop fs -stat "%o" /usr/hadoop/in/test1000.txt
Warning: $HADOOP_HOME is deprecated.

512000

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

慢生活家

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

HDFS块大小为何是128MB ? block.size

Top5软件工程硕士，先后在京东、字节从事多年Java后端开发、实时和离线大数据开发

01-27

1799

块大小取决于dfs.blocksize，2.x默认为128M，1.x默认为64M（128M指的是块的最大大小！每个块最多存储128M的数据，如果当前块存储的数据不满128M，存了多少数据，就占用多少的磁盘空间！一个块只属于一个文件！）默认为128M的原因，基于最佳传输损耗理论！不论对磁盘的文件进行读还是写，都需要先进行寻址！最佳传输损耗理论：在一次传输中，寻址时间占用总传输时间的1%时，本次传输的损耗最小，为最佳性价比传输！目前硬件的发展条件，普通磁盘写的速率大概为100M/

【HDFS】HDFS文件块大小（重点）

qq_37472274的博客

12-29

1589

大数据基础知识学习

1 条评论您还未登录，请先登录后发表或查看评论

hadoop修改HDFS默认块大小的配置

最新发布

2301_77836489的博客

05-20

631

在无聊的世界里，做个有趣的自己。

hdfs块大小调整

superGrant的博客

03-08

2442

1、hdfs数据块 HDFS上的文件被划分为块大小的多个分块作为独立的存储单元。HDFS中小于一个块大小的文件不会占据整个块的空间（当一个1MB的文件存储在一个128MB的块中时，文件只使用1MB的磁盘空间，而不是128MB）在hdfs里，datdanode上默认的数据块大小为64M（或128M或256M），块大小调整“不能远少于64MB，也不能远大于64M”。如果块过小，那需要读取的数据块...

Hadoop优化与调整

weixin_34332905的博客

04-22

219

2019独角兽企业重金招聘Python工程师标准>>> ...

hadoop关于block总结

易水寒

03-14

2046

Hadoop用户必读：HDFS块大小调整的权威指南

HDFS块大小概念与重要性在分布式存储系统Hadoop分布式文件系统（HDFS）中，块（Block）是数据存储的基本单位。理解块大小的概念及其重要性对于优化存储和处理性能至关重要。 ## HDFS块大小的基础理解 HDFS将大...

HDFS块大小调整：从理论到实践的综合分析

## HDFS块大小的基本概念 Hadoop分布式文件系统（HDFS）将大文件分割成固定大小的数据块，这些数据块被称为块（block）。在HDFS中，默认情况下，一个块的大小被设置为128MB，但在某些情况下，这个值可能需要调整。...

HDFS块大小的艺术：存储与计算效率的完美平衡

![HDFS块大小的艺术：存储与计算效率的完美平衡]...本章将带领读者了解HDFS块大小的基本概念，为后续章节深入探讨块大小对存储和计算性能的影响打下基础。 ## 什么是HDFS块大小？ HDFS块大小是指在Hadoop分布式

大数据-HDFS文件块大小的设置

hmyqwe的博客

11-27

1002

HDFS中的文件在物料上是分块存储，块的大小可以通过配置参数dfs.blocksize来规定，默认大小再Hadoop2.X版本中是128M，Hadoop1.X版本中是64M HDFS的块设置太小，会增加寻址时间，程序一直在找块的开始位置 HDFS的块设置太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序再出来这块数据时非常慢总结： HDFS块的大小设置主要取决于磁盘传输速率，即机器性能 ...

HDFS块大小设置

qq_45275284的博客

03-23

591

一、HDFS 块设置的比较小会增加寻址时间，并且每个块在namenode都会存储一份元数据，增加namenode开销。最佳传输损耗理论：在一次传输中，寻址时间占总传输时间的1%，本次传输的损耗最小，为最佳性价比传输。块在传输时，每64K还需要校验一次，因此块大小，必须为2的n次方，最接近100M的就是128M！如果公司使用的是固态硬盘，写的速度是300M/S，将块大小调整到 256M。如果公司使用的是固态硬盘，写的速度是500M/S，将块大小调整到 512M。

HDFS中block块大小设置问题

abc37154621的博客

12-26

1万+

在 HDFS 里面， data node 上的块大小默认是 64MB( 或者是 128MB 或 256MB) 问题 : 为什么 64MB( 或 128MB 或 256MB) 是最优选择？  为什么不能远少于 64MB( 或 128MB 或 256MB

HDFS修改Block size

LittleFatz's 笔记

04-01

2014

1.查看HDFS的file system情况 block size=64MB size" TITLE="HDFS修改Block size" /> 修改hdfs-site.xml size" TITLE="HDFS修改Block size" /> 重新启动hdfs 并且添加新文件重新查看file system 修改生效 size" TITLE="HDFS修改Block siz

HDFS读写数据流程以及Block大小设置

liutao3233的博客

09-25

1164

Hadoop读写流程

HDFS文件块大小

qq_41982570的博客

03-01

1303

HDFS文件块大小

HDFS读写数据流程和HDFS文件块大小

qq_38147044的博客

08-04

1171

HDFS读写数据流程和HDFS文件块大小

修改Hadoop的HDFS块大小

Paladin的专栏

02-13

7224

1 修改HDFS块大小 通过访问web页面查看目前HDFS的大小，默认是64M。 2 设置每个namenode节点和datanode节点的hdfs-site.xml文件，将文件中的dfs.block.size属性值改为33554432（32M）单位大小为比特（B），重启集群 dfs.block.size 33554432 可以看到新添加

hdfs文件大小和数据块

03-26

<think>好的，用户现在想要了解HDFS中的文件大小和数据块相关的知识。首先，我需要回忆之前已经提供的关于HDFS的介绍，特别是关于数据块的部分。之前的回答里已经提到过HDFS将文件分割成固定大小的块，默认是128MB或256MB，副本机制等。但用户现在更具体地询问文件大小和数据块的关系，可能需要更详细的信息。接下来，我需要考虑用户的潜在需求。用户可能在使用HDFS时遇到了存储优化的问题，或者想知道如何设置块大小来提升性能，特别是处理大文件或小文件的情况。他们可能关心为什么块大小这么设置，或者如何调整块大小来适应不同的应用场景。然后，我需要组织信息结构。首先解释数据块的基本概念，包括默认大小、设计目的，比如减少元数据开销和优化磁盘寻址时间。然后讨论文件大小对HDFS的影响，尤其是大文件和小文件的处理方式。用户可能想知道如何处理小文件问题，比如合并或使用其他工具如HAR文件或HBase。另外，需要提到块大小的配置方法，因为用户可能有调整的需求。还要包括注意事项，比如块大小与硬件的关系，以及最佳实践建议，比如避免小文件，合理设置块大小，监控元数据等。同时，要确保回答符合之前设定的系统级指令，比如使用正确的中文术语，数学表达式用$...$格式，但在这个问题中可能用不到数学公式，所以可能不需要特别处理。结构要清晰，分点说明，可能用表格比较不同文件大小的处理方式。还要检查是否有遗漏的关键点，例如HDFS如何处理超过块大小的文件，块与数据节点的分布，以及块大小对MapReduce任务的影响。这些都是用户可能关心的深层问题，需要简明扼要地解释。最后，需要验证信息的准确性，比如Hadoop 2.x之后的默认块大小是否是128MB，而Hadoop 3是否有变化，副本机制是否正确，以及小文件问题的解决方案是否有其他替代方法。确保所有信息都是最新的，避免过时的内容。</think>以下是关于HDFS文件大小与数据块的详细介绍，结合设计原理、实际影响和操作建议： --- ### 一、数据块（Block）的核心概念 #### 1. **定义与默认值** - **数据块**是HDFS存储文件的基本单位，文件会被切分为多个块分散存储。 - **默认块大小**： - Hadoop 1.x/2.x：**128 MB** - Hadoop 3.x：**256 MB**（可配置） - **设计目的**： - 减少NameNode元数据压力（块越大，元数据条目越少）。 - 优化磁盘寻址时间（减少随机读取开销）。 #### 2. **块大小的意义** - **物理存储无关性**：文件逻辑上连续，但物理上分散存储在不同节点。 - **读写优化**：大块减少客户端与DataNode的网络交互次数，提升吞吐量。 --- ### 二、文件大小对HDFS的影响 #### 1. **大文件（GB/TB级）** - **优势**： - 完美匹配HDFS设计目标，块利用率高。 - 并行读写性能好（MapReduce/Spark任务可并发处理多个块）。 - **示例**：一个1 GB文件会被切分为： - Hadoop 2.x：$1 \text{GB} / 128 \text{MB} = 8 \text{块}$ - Hadoop 3.x：$1 \text{GB} / 256 \text{MB} = 4 \text{块}$ #### 2. **小文件（远小于块大小）** - **问题**： - **存储浪费**：一个10 KB文件仍占用1个完整块（默认128MB），实际存储空间浪费。 - **元数据膨胀**：每个文件/块占用NameNode约150字节内存，100万个小文件需约150 MB内存。 - **解决方案**： - 合并小文件（SequenceFile、HAR归档文件）。 - 使用HBase存储小文件（底层基于HDFS但优化了元数据管理）。 --- ### 三、块大小配置与调优 #### 1. **修改块大小** - **全局配置**：在`hdfs-site.xml`中设置： ```xml <property> <name>dfs.blocksize</name> <value>134217728</value>  </property> ``` - **单文件指定**：在代码或命令中临时覆盖： ```bash hdfs dfs -D dfs.blocksize=256m -put largefile.txt /path/ ``` #### 2. **选择块大小的权衡** | 块大小 | 优势 | 劣势 | |--------|------|------| | **增大** | 减少元数据量，提升吞吐 | 并行度降低，任务负载不均 | | **减小** | 提高并行度，减少数据浪费 | 元数据压力增大，网络交互频繁 | --- ### 四、数据块的物理存储 #### 1. **存储规则** - 每个块存储为**独立物理文件**（如`blk_1073741825`），包含数据和校验信息。 - 块副本按以下策略分布（默认3副本）： - 第1副本：写入请求发起节点（客户端所在DataNode）。 - 第2副本：同一机架内的另一节点。 - 第3副本：不同机架的节点。 #### 2. **块与MapReduce任务** - **数据本地性（Data Locality）**： Map任务优先调度到存储对应块的节点，减少网络传输。 - 本地块 → 本地任务（最优） - 同机架块 → 同机架任务（次优） - 跨机架块 → 跨机架任务（最差） --- ### 五、注意事项与最佳实践 1. **避免小文件**：合并为SequenceFile或使用HBase存储。 2. **块大小与硬件匹配**： - HDD硬盘：适合较大块（减少寻址时间） - SSD硬盘：可适当减小块（随机读取性能高） 3. **监控元数据**：定期检查NameNode内存使用，防止小文件导致内存溢出。 --- ### 六、示例场景分析 #### 场景：存储1个500 MB文件（Hadoop 3.x，块大小256MB） 1. **分块**：$500 \text{MB} / 256 \text{MB} = 2 \text{块}$（实际为2×256MB + 1×剩余244MB）。 2. **副本分布**：每个块生成3个副本，共占用$(2+1)×3=9$个块存储空间。 3. **读取优化**：并行从6个不同节点（2块×3副本）读取数据。 --- 通过合理配置块大小和管理文件分布，可以最大化HDFS的存储效率与计算性能。