
HDFS
猫不夜行
静水流深,物我两忘
展开
-
HDFS基本概念
概念HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。注意:HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。组成1)HDFS集群包括,NameNode和DataNode以及Secondary Namenode。2)NameN...原创 2019-07-19 16:18:00 · 235 阅读 · 1 评论 -
HDFS数据流——写数据流程
剖析HDFS文件写入假设文件ss.avi共200m,其写入HDFS指定路径/user/atguigu/ss.avi流程如下:1)客户端向namenode请求上传文件到指定路径,namenode通过元数据(编辑日志edits和镜像文件fsimage)检查目标文件是否已存在,父目录是否存在。(先执行edits,再看fsimage中是否存在)2)namenode返回是否可以上传。...原创 2019-07-19 16:35:00 · 134 阅读 · 0 评论 -
HDFS网络拓扑概念及机架感知(副本节点选择)
网络拓扑概念在本地网络中,两个节点被称为“彼此近邻”是什么意思?在海量数据处理中,其主要限制因素是节点之间数据的传输速率——带宽很稀缺。这里将两个节点间的带宽作为距离的衡量标准。 节点距离:两个节点到达最近的共同祖先(如路由器)的距离总和。例如,假设有数据中心d1机架r1中的节点n1。该节点可以表示为/d1/r1/n1。利用这种标记,这里给出四种距离描述。Distan...原创 2019-07-19 16:49:00 · 215 阅读 · 0 评论 -
HDFS数据流——读数据流程
HDFS读数据流程假设客户端请求下载文件/user/atguigu/ss.avi,HDFS读数据流程如下:1)客户端向namenode请求下载文件,namenode通过查询元数据,找到文件所有文件块及所在的datanode地址。2)挑选一台datanode(就近原则,然后随机)服务器,请求读取数据。3)datanode开始传输数据给客户端(从磁盘里面读取数据放入流,以p...原创 2019-07-19 16:59:00 · 203 阅读 · 0 评论 -
HDFS中NameNode和Secondary NameNode工作机制
NameNode工作机制0)启动概述Namenode启动时,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的fsimage文件和一个空的编辑日志。此时,namenode开始监听datanode请求。但是此刻,namenode运行在安全模式,即namenode的文件系统对于客户端来说是只读的。系...原创 2019-07-19 17:35:00 · 210 阅读 · 0 评论 -
HDFS镜像文件fsimage和编辑日志文件edits
镜像文件和编辑日志文件1)概念 namenode被格式化之后,将在/opt/module/hadoop-2.7.2/data/tmp/dfs/name/current目录中产生如下文件edits_0000000000000000000fsimage_0000000000000000000.md5seen_txidVERSION(1)Fsimage文件:HD...原创 2019-07-19 19:51:00 · 468 阅读 · 0 评论 -
HDFS启动过程概述及集群安全模式操作
1.启动过程概述Namenode启动时,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的fsimage文件和一个空的编辑日志。此时,namenode开始监听datanode请求。但是此刻,namenode运行在安全模式,即namenode的文件系统对于客户端来说是只读的。系统中的数据块的位置并不是...原创 2019-07-24 11:47:00 · 122 阅读 · 0 评论 -
HDFS中DataNode工作机制
1.DataNode工作机制1)一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据(包括数据块的长度,块数据的校验和,以及时间戳)。2)DataNode启动后向namenode注册,通过后,周期性(1小时)的向namenode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有namenode给该datanode的命令如复制块数据...原创 2019-07-24 12:16:00 · 145 阅读 · 0 评论 -
HDFS-HA高可用工作机制
1.HDFS-HA概述1)所谓HA(high available),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。4)NameNode主要在以下两个方面影响HDFS集群NameNode机器...原创 2019-07-24 13:13:00 · 179 阅读 · 0 评论