
hdfs
文章平均质量分 78
hdfs
薛定谔的猫1982
技术博客
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hdfs(七) 常用命令
用法:hdfs dfs -mv URI [URI ...] <dst> 或 hdfs dfs -rm [-f] [-r |-R] [-skipTrash] URI [URI ...]用法:hdfs dfs -cp [-f] [-p | -p[topax]] URI [URI ...] <dest>用法:hdfs dfs -get [-ignorecrc] [-crc] <src> <localdst>用法:hdfs dfs -chown [-R] [OWNER][:[GROUP]] URI [URI]原创 2024-08-17 09:12:05 · 751 阅读 · 0 评论 -
Hdfs(六)SecondaryNameNode
当然,如果NameNode中的fsimage真的出问题了,还是可以用SecondaryNamenode中的fsimage替换一下NameNode上的fsimage,虽然已经不是最新的fsimage,但是我们可以将损失减小到最少,帮助主要的NameNode执行Checkpoint操作,以提高HDFS的可靠性和性能。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。原创 2024-08-15 11:34:07 · 1061 阅读 · 0 评论 -
Hdfs(五)DataNode
Datanode是HDFS文件系统的工作节点,它们根据客户端或者是namenode的调度进行存储和检索数据,并且定期向namenode发送它们所存储的块(block)的列表。NameNode上并不永久保存各个DataNode上数据块的信息,而是通过DataNode启动时的上报程序来更新NameNode上的映射表。根据客户端或者是namenode的调度存储和检索数据,并且定期向namenode发送所存储的块(block)的列表。原创 2024-08-15 10:03:54 · 1603 阅读 · 0 评论 -
Hdfs(四)NameNode
随着运行时间的推移,edits_inprogress文件中记录的命令会越来越多,同时fsiamge文件中的元数据和内存中的元数据差别也会越来越大。因此,当达到指定条件的时候,edits_inprogress这个文件会产生滚动,滚动生成一个edits文件,同时产生一个新的edits_ingprogress文件。滚动生成edits文件之后,NameNode会将edits文件中的命令再一一取出,解析之后修改fsimage文件中的元数据。在这个过程中,会发现,fsimage文件中的元数据并没有发生变化。原创 2024-08-15 08:46:09 · 847 阅读 · 0 评论 -
Hdfs(三)block
3. 如果一个文件不足一个Block的指定大小,这个文件的大小就是它所对应的Block的大小。例如一个文件是90M,那么对应的Block就是80M。属性dfs.blocksize指定的值实际上可以为一个Block的最大容量。可以通过dfs.blocksize属性来设置,放在hdfs-site.xml文件中,单位是字节。1. Block是HDFS中数据存储的基本形式,上传到HDFS上的数据最终以Block的形式落地到DataNode的磁盘上。Hadoop中的HDFS组件是专门存储数据的。原创 2024-08-14 21:45:41 · 434 阅读 · 0 评论 -
Hdfs(二)基本结构
同时,客户端还会将数据块的副本分发给其他DataNode,以实现数据的冗余存储。客户端根据元数据信息,直接与存储有所需数据块的DataNode进行通信,获取数据块并进行读取操作。DataNode是HDFS的从节点,主要用于存储数据,数据会以Block形式落地到磁盘上。防止数据丢失,HDFS会对上传的文件进行自动的备份。在HDFS中,将元数据拆分成了很多项,主要包含了以下几项:上传的文件名以及存储的虚拟路径,例如/log/a.log。假设我们有一个包含100个数据块的文件,每个数据块的大小为80MB。原创 2024-08-14 21:44:57 · 538 阅读 · 0 评论 -
Hdfs(一)介绍
HDFS全称为Hadoop Distributed File System,即为Hadoop提供的分布式文件系统,Hadoop底层的存储能力都是基于HDFS来提供,所以认为HDFS是整个Hadoop体系的底层核心基石。HDFS的特点是采用了低成本的硬件设计模式,具备很高的容错性,可以部署在价格低廉的普通服务器上,通过多台服务器组成HDFS集群从而提供分布式存储的能力。HDFS是Doug Cutting根据Google的论文(GFS)来仿照实现的。原创 2024-08-14 21:43:50 · 953 阅读 · 0 评论