
HDFS
sghuu
这个作者很懒,什么都没留下…
展开
-
hadoop支持Lzo压缩配置及案例
hadoop支持Lzo压缩配置1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/[atguigu@hadoop102 common]$ pwd...原创 2019-11-01 20:59:41 · 765 阅读 · 2 评论 -
hdfs服役新数据节点和退役旧节点步骤(白名单和黑名单)
1)节点上线操作:当要新上线数据节点的时候,需要把数据节点的名字追加在 dfs.hosts 文件中(1)关闭新增节点的防火墙(2)在 NameNode 节点的 hosts 文件中加入新增数据节点的 hostname(3)在每个新增数据节点的 hosts 文件中加入 NameNode 的 hostname(4)在 NameNode 节点上增加新增节点的 SSH 免密码登录的操作(5)在 ...原创 2019-10-17 14:47:19 · 538 阅读 · 0 评论 -
hadoop的小文件的处理
HDFS存储小文件的弊端:每个文件均按照块存储,每个块的元数据存储在Namenode的内存中,因此HDFS的内存中,因此HDFS存储小文件会非常低效。因为大量小文件会消耗NameNode中的大部分内存。在后期大量的小文件如果不做处理的话,在进行mr运算时会开启大量的mapTask任务,每个小文件会开启独立的mapTask任务,造成资源的浪费。但注意,存储小文件所需要的磁盘容量和数据块的大小无关...原创 2019-09-27 19:47:55 · 159 阅读 · 0 评论 -
NameNode和DataNode的多目录配置
NameNode多目录配置NameNode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性具体配置如下(1)在hdfs-site.xml文件中增加如下内容<property> <name>dfs.namenode.name.dir</name><value>file:///${hadoop.tmp.dir}/dfs...原创 2019-09-27 19:33:51 · 817 阅读 · 0 评论 -
hadoop的block大小的原因以及其他的block大小
hadoop的block大小的原因HDFS中的文件在物理上是分块存储的,快的大小可以通过配置参数来规定,默认在hadoop2版本中是128M,老版本是64M。128M是由于大部分磁盘的传输速率决定的,一些大厂提高磁盘的传输速率从而将块的大小设置为256M的大小,目前普遍为128M;块的过大和过小带来的影响:1、块过小当一个问价较大时,此时就会产生数量巨多的块,则在程序执行时会大量增加寻...原创 2019-09-27 19:13:26 · 1999 阅读 · 0 评论 -
关于格式化NameNode的几点注意
格式化步骤 :先jps查看当前是否有hadoop相应的进程如果有则关闭相应的进程 ,如果还有残留进程 则用 kill -9 端口号 杀死进程原因: 如果在开启进程的时候去上出data和logs文件夹,因为进程仍然在运 行还是会产生相应的data和logs文件,所有并不能删除相应的记录结束相关的进程后,在hadoop的目录下删除data和logs文件夹原因 格式化...原创 2019-09-24 19:23:22 · 3577 阅读 · 0 评论 -
NameNode和secondNameNode工作机制
NameNode和secondNameNode工作机制1. 第一阶段:NameNode启动(1)第一次启动NameNode格式化后,创建Fsimage和Edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。(2)客户端对元数据进行增删改的请求。(3)NameNode中的Edits记录操作日志,更新滚动日志 (数据安全的重要性所以先写入磁盘再去执行)(4)NameNode在...原创 2019-08-02 13:46:46 · 418 阅读 · 0 评论 -
SecondNameNode产生的原因
SecondNameNode的产生思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果...原创 2019-08-02 00:55:42 · 239 阅读 · 0 评论 -
网络拓扑-节点距离计算以及副本节点选择
网络拓扑-节点距离计算在HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接收数据。节点距离:两个节点到达最近的共同祖先的距离总和。## 副本节点选择第一个副本存放在Client所处的节点上。如果客户端在集群外,随机选择一个节点第二个副本和第一个副本位于相同的框架,框架内的随机节点第三个副本位于相邻的随机机架里的随机节点...原创 2019-08-01 23:51:45 · 811 阅读 · 0 评论 -
HDFS的写入数据流程
HDFS的写入数据流程剖析文件写入1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 Block上传到哪几个DataNode服务器上。4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。5)客户端通过...原创 2019-08-02 00:04:16 · 511 阅读 · 0 评论 -
HDFS读数据流程
HDFS读数据流程客户端Client生成一个集群对象Distribute FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到块所在的D阿Node地址。根据就近原则然后随机挑选一台DataNode服务器,读取数据3.DataNode开始传输数据给Client客户端(从磁盘里面读取输入流,以Packet《Packet为中等单位64k,DfSClient流...原创 2019-08-02 00:41:38 · 183 阅读 · 0 评论 -
HDFS集群安全模式
**HDFS集群安全模式**集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。(1)bin/hdfs dfsadmin -safemode get (功能描述:查看安全模式状态)(2)bin/hdfs dfsadmin -safemode enter (功能描述:进入安全模式状态)(3)bin/hdfs dfsadmin -safemode leav...原创 2019-08-20 20:19:48 · 291 阅读 · 0 评论