HDFS分块存储

最新推荐文章于 2024-10-19 20:54:42 发布

原创最新推荐文章于 2024-10-19 20:54:42 发布 · 2.5w 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#hdfs #hadoop #大数据

HDFS采用分块存储策略，无论文件大小，都将文件抽象为固定大小的block块，如在Hadoop2中默认为128M。即使文件大小不等于block大小，也会按实际大小存储。块抽象简化了存储子系统，并便于数据备份，提供容错和可用性。此外，频繁访问的文件块可被缓存在DataNode内存中，提升读取性能。

HDFS分块存储

目标：掌握什么是分块存储，HDFS的分块存储策略

hdfs将所有的文件全部抽象成为block块来进行存储，不管文件大小，全部一视同仁都是以block块的统一大小和形式进行存储，方便我们的分布式文件系统对文件的管理

所有的文件都是以block块的方式存放在HDFS文件系统当中，在Hadoop1当中，文件的block块默认大小是64M，Hadoop2当中，文件的block块大小默认是128M，block块的大小可以通过hdfs-site.xml当中的配置文件进行指定

<property>
        <name>dfs.block.size</name>
        <value>块大小 以字节为单位</value>//只写数值就可以
</property>

在这里插入图片描述

一个文件100M，上传到HDFS占用几个快？
一个块128M，剩余的28M怎么办？

事实上，128只是个数字，数据超过128M，便进行切分，如果没有超过128M，就不用切分，有多少算多少，不足128M的也是一个快。这个快的大小就是100M，没有剩余28M这个概念。

抽象成数据块的好处

一个文件有可能大于集群中任意一个磁盘
20T/128 = xxx块，这些block块属于一个文件
使用块抽象而不是文件,可以简化存储子系统。
块非常适合用于数据备份进而提供数据容错能力和可用性

块缓存

通常DataNode从磁盘中读取块，但对于访问频繁的文件，其对应的块可能被显示的缓存在DataNode的内存中，以堆外块缓存的形式存在。默认情况下，一个块仅缓存在一个DataNode的内存中，当然可以针对每个文件配置DataNode的数量。作业调度器通过在缓存块的DataNode上运行任务，可以利用块缓存的优势提高读操作的性能。