
HDFS
莹火虫的另一半
成功之路,在于坚持与态度
展开
-
13 HDFS 高可用原理和集群搭建
一、HDFS高可用1.1、介绍在Hadoop 中,NameNode 所处的位置是非常重要的,整个HDFS文件系统的元数据信息都由NameNode 来管理,NameNode的可用性直接决定了Hadoop 的可用性,一旦NameNode进程不能工作了,就会影响整个集群的正常使用。在典型的HA集群中,两台独立的机器被配置为NameNode。在工作集群中,NameNode机器中的一个处于Active状态,另一个处于Standby状态。Active NameNode负责群集中的所有客户端操作,..原创 2020-12-18 10:09:30 · 211 阅读 · 1 评论 -
12 HDFS的Trash回收机制
一、HDFS的Trash回收机制 Trash回收机制应用场景 放置用户手一抖彻底删除数据,当放置到Trash回收站里,还可以再次恢复数据。 Trash回收站原理 当用户默认删除数据的时候,并不是直接从物理磁盘删掉,而只是将文件移动到指定的文件夹下,如果一致不恢复数据(根据默认时间7天等相关参数),Trash数据将从磁盘中抹掉。 <property> <name>fs.trash.interval</nam...原创 2020-12-18 10:08:56 · 213 阅读 · 0 评论 -
11 HDFS 的快照的使用
一、快照1.1、快照介绍和使用场景 hdfs 的快照什么场景上使用: 数据的备份 放置用户操作不当出现错误的操作 试验、测试 灾备恢复 hdfs 的快照是什么呢? 相当于对HDFS中的某一个文件夹进行 拍照,保持当前这个文件夹的一个状态信息(差异化快照) 差异化快照:拍完快照,快照文件只是对源文件的映射关系匹配。 hdfs 的快照主要是针对文件夹。 ...原创 2020-12-18 10:07:40 · 237 阅读 · 0 评论 -
10 Archive档案的使用
一、Archive档案的使用HDFS并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在NameNode占用内存,如果存在大量的小文件,它们会吃掉NameNode节点的大量内存。Hadoop Archives可以有效的处理以上问题,它可以把多个文件归档成为一个文件,归档成一个文件后还可以透明的访问每一个文件。1.1、如何创建Archive语法Usage: hadoop archive -archiveName name -p <pare...原创 2020-12-18 10:07:06 · 1136 阅读 · 0 评论 -
09 HDFS访问权限控制
一、HDFS访问权限控制HDFS权限模型和Linux系统类似。每个文件和目录有一个所有者(owner)和一个组(group)。文件或目录对其所有者、同组的其他用户以及所有其他用户(other)分别有着不同的权限。对文件而言,当读取这个文件时需要有r权限,当写入或者追加到文件时需要有w权限。对目录而言,当列出目录内容时需要具有r权限,当新建或删除子文件或子目录时需要有w权限,当访问目录的子节点时需要有x权限。但hdfs的文件权限需要开启之后才生效,否则在HDFS中设置权限将不具有任何意义!..原创 2020-12-18 10:06:34 · 510 阅读 · 0 评论 -
08 HDFS-javaApi操作
pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven...原创 2020-12-18 10:06:02 · 90 阅读 · 0 评论 -
07 NameNode元数据恢复
一、NameNode元数据恢复当NameNode发生故障时,我们可以通过将SecondaryNameNode中数据拷贝到NameNode存储数据的目录的方式来恢复NameNode的数据1.1、杀死NameNode进程kill-9NameNode进程号1.2、删除NameNode存储的数据rm/export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas/*-fr1.3、拷贝SecondaryN...原创 2020-12-17 09:31:07 · 388 阅读 · 0 评论 -
06 HDSF元数据辅助管理SNN
一、元数据辅助管理SNN(secondary namenode)1.1、架构图1.2、执行流程(参考 )snn 元数据辅助执行流程第一步:将hdfs更新记录写入一个新的文件——edits.new。第二步:将fsimage和editlog通过http协议发送至secondary namenode。第三步:将fsimage与editlog合并,生成一个新的文件——fsimage.ckpt。这步之所以要在secondary namenode中进行,是...原创 2020-12-17 09:30:36 · 252 阅读 · 1 评论 -
05 HDFS读写原理
一、HDFS数据写入流程1.1、架构图二、HDFS数据读取流程2.1、架构图原创 2020-12-17 09:29:55 · 94 阅读 · 0 评论 -
04 HDFS压力测试
一、hdfs基准测试实际生产环境当中,hadoop的环境搭建完成之后,第一件事情就是进行压力测试,测试我们的集群的读取和写入速度,测试我们的网络带宽是否足够等一些基准测试1.1、测试写入速度向HDFS文件系统中写入数据,10个文件,每个文件10MB,文件存放到/benchmarks/TestDFSIO中hadoop jar/export/server/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-client-jo...原创 2020-12-17 09:28:59 · 311 阅读 · 0 评论 -
03 HDFS安全模式
一、HDFS安全模式1.1、安全模式介绍安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。在安全模式状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求因为在安全模式下, 不进行 增删改 操作1.2、开启、关闭安全模式 hdfsdfsadmin -safemode get#查看安全模式状态 hdfsdfsadmin -safemode enter#进入安全模式 hdfsdfsad...原创 2020-12-17 09:28:27 · 90 阅读 · 0 评论 -
02 HDFS shell命令
一、shell命令行客户端1.1、shell命令选项命令格式如下 1 这是2.x的命令格式: hdfs dfs <args> 2 这是1.x的命令格式: hadoop fs <args> 3 注意:在2.x中可以使用1.x的命令 4 注意:在3.x中不可以使用1.x的命令 HDFS是存取数据的分布式文件系统,那么对HDFS的操作,就是文件系统的基本操作,比如文件的创建、修改、删除...原创 2020-12-17 09:27:33 · 151 阅读 · 0 评论 -
01 HDFS介绍 --hadoop分布式文件系统
一、HDFS1.1、hdfs介绍HDFS(Hadoop Distributed File System -->hadoop分布式文件系统)是 Apache Hadoop 项目的一个子项目.Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统.HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统.1.2、hdfs 架构需求:比如要在5台机器...原创 2020-12-17 09:26:08 · 214 阅读 · 1 评论