HDFS文件存储

最新推荐文章于 2024-11-01 15:16:10 发布

原创最新推荐文章于 2024-11-01 15:16:10 发布 · 843 阅读

1 ·

CC 4.0 BY-SA版权

Hadoop 专栏收录该内容

43 篇文章

订阅专栏

本文深入探讨了HDFS如何将文件切分为多个Block进行分布式存储，并通过实例演示了Block的存储位置及如何通过手动合并Block来还原文件，揭示了HDFS的文件切分原理。

理论上HDFS中存储一个文件时会被分成多个Block，这些block应该会存放在不同的节点中。例如我们HDFS中有一个文件hdfs dfs -put flink-1.8.2-bin-scala_2.11.tgz /
在这里插入图片描述
这个文件被分成了三个Block，分别是Block0、Block1、Block2：

这三个Block的大小加起来总共就是283.81MB。
其中Block0的id为：1073741846、Block1的id为1073741847、Block2的id为1073741848。
我们在hadoop数据目录下查看(在hdfs-site.xml文件中配置hadoop.tmp.dir)，在路径/home/duandingyang/tmp/hadoop-tmp/dfs/data/current/BP-840844130-127.0.1.1-1570955999745/current/finalized/subdir0/subdir0下看到了这几个block：
在这里插入图片描述
当我们要get这个文件时，在NameNode中查找这个文件对应的元数据信息（文件被拆成了多少block，这些block的id是多少，存在哪个DataNode中等等）
如果我们如果把这三个文件手动合并会怎么样？
将这三个block文件添加到一个压缩文件：

cat blk_1073741846 >> ~/flink.tgz
cat blk_1073741847 >> ~/flink.tgz
cat blk_1073741848 >> ~/flink.tgz

然后可以使用tar -xvf ~/flink.tgz命令可以解压这个文件，
说明HDFS只是帮我们做了个文件切分。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

vincent_hahaha

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Java操作hdfs文件系统

congge

12-26

1万+

前言在上一篇，我们通过命令行的使用掌握了如何基于hdfs的命令对hdfs文件系统的常用操作，本篇将分享如何基于JavaAPI 操作hdfs文件系统前置准备默认服务器上的hadoop服务已经启动本地如果是windows环境，需要本地配置下hadoop的环境变量本地配置hadoop的环境变量 1、官网下载一个与服务器上的hadoop同样的版本包 2、将这个路径配置到系统变量中编码环境前置准备使用idea快速构建一个springoot的工程 1、导入maven依赖 <depende

HDFS文件系统

qq_74310533的博客

04-23

1186

在现代的企业环境中，单机容量往往无法存储大量数据，需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。HDFS（）是项目的一个子项目. Hadoop非常适于存储大型数据 (比如TB和PB),其就是使用HDFS作为存储系统. HDFS使用多台计算机存储文件并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统.分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。

参与评论您还未登录，请先登录后发表或查看评论

HDFS内存存储

走在前往架构师的路上

05-29

1万+

前言上一篇文章主要阐述了HDFS Cache缓存方面的知识,本文继续带领大家了解HDFS内存存储相关的内容.在HDFS中,CacheAdmin设置的目标文件缓存是会存放于DataNode的内存中,但是另外一种情况也可以将数据存放在DataNode的内存里.就是之前HDFS异构存储中提到的内存存储策略,LAZY_PERSIST.换句话说,本文也是对HDFS内存存储策略的一个更细致的分析.考虑

hdfs文件的存储

asdlitao123的博客

06-11

490

以block块的形式将大文件进行相应的存储 1* 64M 2*128M 文件线性切割成块：偏移量offset（byte） block分散存储在集群节点中单一文件block大小一致，文件与文件可以不一致 block可以设置副本数，副本分散在不同的节点中，副本数不要超过节点数量文件上传可以设置BLOCK大小和副本数已上传的文件block副本数可以调整，大小不变只支持一次写入多次读取同一时刻只...

Hadoop系列之六：分布式文件系统HDFS

weixin_33834910的博客

01-04

184

1、MapReduce与分布式文件系统前面的讨论中，我们已经得知，Hadoop中实现的MapReduce是一个编程模型和运行框架，它能够通过JobTracker接收客户提交的作业而后将其分割为多个任务后并行运行在多个TaskTracker上。而问题是，这些TaskTracker如何高效获取所要处理的数据？在传统的高性能集群中，计算节点和存储节点是各自独立的，它们之间通过高速网络完...

HDFS分布式文件存储系统

Ashenlex的博客

04-22

1761

按块（block）存储hdfs在对文件数据进行存储时，默认是按照128M(包含)大小进行文件数据拆分，将不同拆分的块数据存储在不同datanode服务器上拆分后的块数据会被分别存储在不同的服务器上副本机制为了保证hdfs的数据的安全性，避免数据的丢失，hdfs对每个块数据进行备份，默认情况下块数据会存储3份，叫做3副本副本块是存在不同的服务器上默认存储策略由类支持。也就是日常生活中提到最经典的3副本策略。

Hadoop-005-HDFS分布式文件存储原理

加贝的博客

11-01

1661

HDFS的数据存储原理和读写流程

基于HDFS+FTP的文件存储与迁移实验代码.zip

03-20

这个"基于HDFS+FTP的文件存储与迁移实验代码.zip"包含了一个名为"HDFS_FTP_ForMyProject-master"的项目源码，这为我们提供了一个实际操作的平台。这里我们将详细讲解HDFS、FTP以及它们在人工智能领域的应用。 **...

基于Django框架与Hadoop集群构建的大规模分布式数据处理与分析平台_集成HDFS文件存储_Hive数据仓库_HBase列式数据库_ZooKeeper协调服务_Spark内存.zip

最新发布

09-12

基于Django框架与Hadoop集群构建的大规模分布式数据处理与分析平台_集成HDFS文件存储_Hive数据仓库_HBase列式数据库_ZooKeeper协调服务_Spark内存.zip

HDFS(数据存储)

weixin_51699336的博客

06-11

1万+

NameNode启动后将元信息加载到内存，磁盘文件名为fsimage，快的位置信息不会保存到fsimage，而由DataNode启动时主动上报给NameNode，edit记录操作日志一个集群中有且只有一台NameNode处于active状态 3.SecondNameNode SecondNameNode是NameNode的备份，但主要任务是合并NameNode的fsimage和edit logs，减少NameNode启动时间 SNN的合并时机可以通过配置文件设置的时间间隔(fs.checkpoint.

【OpenCV】高手勿入! 半小时学会基本操作 9 滤波器_opencv 高斯核函数在x方向上的标准偏差 csdn

2401_84166147的博客

04-28

520

高斯噪声 (Gaussian Noise) 是概率密度函数服从高斯分布的一类噪声.高斯滤波器 (Gauss Filter) 是一种线性平滑滤波, 适用于高斯噪声.中值滤波器 (Median Filter) 用中值填充.

HDFS的存储原理

weixin_49107940的博客

09-16

1526

在hdfs中，文件是被划分了一堆堆的block块，那如果文件很大、以及文件很多，Hadoop是如何记录和整理文件和block块的关系呢？对于已经存在HDFS的文件，修改dfs.replication属性不会生效，如果要修改已存在文件可以通过命令。edits文件，是一个流水账文件，记录了hdfs中的每一次操作，以及本次操作影响的文件其对应的block。除了配置文件外，我们还可以在上传文件的时候，临时决定被上传文件以多少个副本存储。将全部的edits文件，合并为最终结果，即可得到一个FSImage文件。

linux主机内存机制,再理解HDFS的存储机制

weixin_29858081的博客

05-02

539

再理解HDFS的存储机制1. HDFS开创性地设计出一套文件存储方式，即对文件分割后分别存放；2. HDFS将要存储的大文件进行分割，分割后存放在既定的存储块(Block)中，并通过预先设定的优化处理，模式对存储的数据进行预处理，从而解决了大文件储存与计算的需求；3. 一个HDFS集群包括两大部分，即NameNode与DataNode。一般来说，一个集群中会有一个NameNode和多个DataNo...

hdfs文件存储格式

11-13

4775

hdfs 文件存储格式 hdfs 文件存储格式分为两大类行存储和列存储行存储,将一整行存储在一起,是一种连续的存储方式,例如SequenceFile,MapFile,缺点是如果只需要行中的某一列也必须把整行都读入内存当中列存储列存储会把文件切割成若干列,每一列存储在一起,是需要...

Hadoop中HDFS的文件到底存储在集群节点本地文件系统哪里