
HDFS
介绍HDFS的详细知识
Auraros
gdut一个正在艰苦转行的孩子
展开
-
HDFS每日一练2 API读取文件
HDFS每日一练2 API读取文件题目在右侧代码编辑区和命令行中,编写代码与脚本实现如下功能:在/develop/input/目录下创建hello.txt文件,并输入如下数据:迢迢牵牛星,皎皎河汉女。纤纤擢素手,札札弄机杼。终日不成章,泣涕零如雨。河汉清且浅,相去复几许?盈盈一水间,脉脉不得语。《迢迢牵牛星》使用FSDataOutputStream对象将文件上传至HDFS的/user/tmp/目录下,并打印进度。测试说明:测试说明平台会运行你的java程序,并原创 2020-10-24 22:29:47 · 3666 阅读 · 1 评论 -
HDFS每日一练1 API读取文件
HDFS每日一练1 API读取文件更多整理都在我的github上:Auraros欢迎大家。题目在右侧代码编辑区中编写代码实现如下功能:使用FSDataInputStream获取HDFS的/user/hadoop/目录下的task.txt的文件内容,并输出,其中uri为hdfs://localhost:9000/user/hadoop/task.txt。测试说明:点击评测,平台会通过脚本创建/user/hadoop/task.txt文件并添加相应内容,无需你自己创建,开启hadoop,编写代原创 2020-10-24 22:11:56 · 5096 阅读 · 0 评论 -
HDFS番外2 Fsimage Edits
HDFS番外2 Fsimage Edits更多整理都在我的github上:Auraros欢迎大家。NameNode有一个作用是管理文件系统的元数据元数据解析(1)第一次启动NameNode格式化后,创建fsimage和edits文件,如果不是第一次启动的话,直接加载edits和fsimage文件到内存即可(2)客户端对元数据进行增添查改的请求(3)NameNode记录操作日志,更新滚动日志(4)NameNode在内存中队数据进行增添查改[外链图片转存失败,源站可能有防盗链机制,建议将图原创 2020-10-22 21:30:11 · 122 阅读 · 0 评论 -
HDFS番外1 机架感知
HDFS番外1 机架感知更多整理都在我的github上:Auraros欢迎大家。背景分布式集权通常会包含非常多的机器,由于机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架(rack),然而,这么多个机架共同组成一个分布式集群,一般机架间的网络通信速度会小于机架内部的网络通信,并且机架之间的机器的网络通信通常受到上层交换机之间网络宽带的限制。副本存放策略一般我们都知道HDFS对数据文件的分布式存放是按照分块block存放的,然后每个block都会有3个副本(默认值),一般这三个副本存原创 2020-10-22 20:50:05 · 185 阅读 · 0 评论 -
HDFS客户端操作4 伪造用户
HDFS客户端操作4 伪造用户更多整理都在我的github上:Auraros欢迎大家。hdfs的文件权限验证与linux系统的类似,但hdfs的文件权限需要开启之后才生效,否则在HDFS中设置权限将不具有任何意义!而在设置了权限之后,正常的HDFS操作可能受阻,这种情况下我们就需要伪造用户。开启设置权限如果不开启权限设置,这样会导致任何用户都可以操作HDFS带来一定的安全问题首先我们需要先停止集群,在node01机器上执行以下命令# cd /usr/local/hadoop-2.7.原创 2020-10-23 20:31:12 · 187 阅读 · 0 评论 -
HDFS客户端操作3 IO流操作
HDFS客户端操作 IO流操作更多整理都在我的github上:Auraros欢迎大家。HDFS文件上传@Test public void putFileToHDFS() throws IOException, InterruptedException, URISyntaxException { // 1 获取文件系统 Configuration configuration = new Configuration(); FileSystem fs = FileSys原创 2020-10-13 16:21:34 · 144 阅读 · 0 评论 -
HDFS客户端操作2 文件操作
HDFS客户端操作2 文件操作更多整理都在我的github上:Auraros欢迎大家。连接方式主要有两种连接HDFS方式:// 如果在resource中设置好了fs.defaultFS,则可以Configuration conf = new Configuration();FileSystem fs = FileSystem.get(conf);//如果没有的话,可以Configuration conf = new Configuration();conf.set("fs.default原创 2020-10-13 16:20:46 · 372 阅读 · 1 评论 -
HDFS客户端操作1 开发环境准备
HDFS客户端操作1 开发环境准备更多整理都在我的github上:Auraros欢迎大家。HDFS客户端操作,首先需要配置好发开环境,在这里做客户端idea连接hadoop具体步骤将下载的hadoop-2.6.0.rar压缩包解压增加系统变量HADOOP_HOME,变量值为hadoop-2.6.0.rar压缩包解压所在的目录在系统变量中对变量名为PATH的系统变量追加变量值,变量值为 %HADOOP_HOME%/bin解压下载的winutils,找到对应或邻近版本的Had原创 2020-10-13 16:20:13 · 305 阅读 · 0 评论 -
HDFS10 快照Snapshot管理
HDFS10 快照Snapshot管理快照顾名思义,就是相当于对我们的hdfs文件系统做一个备份,我们可以通过快照对我们指定的文件夹设置备份,但是添加快照之后,并不会立即复制所有文件,而是指向同一个文件。当写入发生时,才会产生新文件。快照SnapshotHdfs的快照(snapshot)是在某一时间点对指定文件系统拷贝,快照采用只读模式,可以对重要数据进行恢复、防止用户错误性的操作。快照分为两种:建立文件系统的索引,每次更新文件不会真正的改变文件,而是新开辟一个空间用来保存更改的文件拷原创 2020-10-23 21:55:16 · 257 阅读 · 0 评论 -
HDFS9 小文件合并
HDFS8 小文件合并由于Hadoop擅长存储大文件,因为大文件的元数据信息比较少,如果Hadoop集群当中有大量的小文件,那么每个小文件都需要维护一份元数据信息,会大大的增加集群管理元数据的内存压力,所以在实际工作当中,如果有必要一定要将小文件合并成大文件进行一起处理。shell命令下合并-getmerge 参数下载到本地cd /export/servershdfs dfs -getmerge /config/*.xml ./hello.xmltype命令按住shift打原创 2020-10-23 21:07:09 · 379 阅读 · 0 评论 -
HDFS8 新增节点与删除节点
HDFS8 新增节点与删除节点更多整理都在我的github上:Auraros欢迎大家。当数据量越来越大的时候,原来有的数据节点的容量已经不能够满足存储数据的要求,需要在原有的集群基础上动态加多一个节点。新的虚拟机操作复制一台新的虚拟机将我们纯净的虚拟机复制一台,作为我们新的数据节点修改mac地址以及IP地址# 因为克隆虚拟的默认的eth0网卡没了,出现的eth1没有ip配置# 此时需要获取到虚拟机的MAC地址,选择虚拟机 设置->网络适配器->高级#修改mac地原创 2020-10-23 20:04:17 · 136 阅读 · 0 评论 -
HDFS7 NameNode故障恢复
HDFS7 NameNode故障恢复更多整理都在我的github上:Auraros欢迎大家。使用SecondaryNameNode恢复数据SecondaryNamenode对Namenode当中的Fsimage和Edits进行合并时,每次都会先将Namenode的Fsimage与Edits文件拷贝一份过来,所以fsimage与edits文件在secondarNamendoe当中也会保存有一份,如果namenode的fsimage与edits文件损坏,那么我们可以将secondaryNamenode当中原创 2020-10-22 23:16:56 · 148 阅读 · 0 评论 -
HDFS6 NameNode元数据信息多目录配置
HDFS6 NameNode元数据信息多目录配置更多整理都在我的github上:Auraros欢迎大家。RAID1因为会提及到,所以稍微解释一下RAID1是什么。RAID1 称为镜像,它将数据完全一致地分别写到工作磁盘和镜像 磁盘,它的磁盘空间利用率为 50% 。 RAID1 在数据写入时,响应时间会有所影响,但是读数据的时候没有影响。 RAID1 提供了最佳的数据保护,一旦工作磁盘发生故障,系统自动从镜像磁盘读取数据,不会影响用户工作。[外链图片转存失败,源站可能有防盗链机制,建议将图片保原创 2020-10-22 22:51:37 · 206 阅读 · 0 评论 -
HDFS5 SecondaryNameNode
HDFS5 SecondaryNameNode更多整理都在我的github上:Auraros欢迎大家。SecondaryNameNode在HDFS中扮演着辅助的作用,负责辅助NameNode管理工作。由于editlog文件很大所有,集群再次启动时会花费较长时间。为了加快集群的启动时间,所以使用secondarynameNode辅助NameNode合并Fsimage,editlog。工作机制讨论到工作机制的时候,必须要重新查看一下namenode的工作了[外链图片转存失败,源站可能有防盗链机原创 2020-10-22 22:26:36 · 95 阅读 · 0 评论 -
HDFS4 安全模式
HDFS4 安全模式安全模式安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求。启动安全期 在NameNode主节点启动时,HDFS首先进入安全模式,DataNode在启动的时候会向namenode汇报可用的block等状态,当整个系统达到安全标准时,HDFS自动离开安全模式。如果HDFS处于安全模式下,则文件block不能进行任何的副本复制操作,因此达到最小的副本数量要求是基于datanode启动时的状态来判定的,启动原创 2020-10-22 21:07:46 · 128 阅读 · 0 评论 -
HDFS3 文件读写框架
HDFS3 文件读写框架更多整理都在我的github上:Auraros欢迎大家。文件写入和读出得过程是理解HDFS框架的重点。文件写入过程(重点)1. client 发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否存在,父目录是否存在,返回是否可以上传。(RPC是指 远程过程调用,在RPC模块有着专门的讲解。);NameNode返回结果2. client 请求第一个block该传输到哪些DataNode服务器上3. NameNode根据配置文件中指定原创 2020-10-22 20:49:16 · 321 阅读 · 0 评论 -
HDFS2 Shell操作
HDFS的Shell操作更多整理都在我的github上:Auraros欢迎大家。基本格式hadoop fs 具体命令 (我主要用这个)hdfs dfs 具体命令常用命令大全启动Hadoop集群strat-dfs.shstart-yarn.sh-help : 输出这个命令参数hadoop fs -help ls[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-taurXG2l-1602577114484)(C:\Users\Auraros\Ap原创 2020-10-13 16:18:54 · 165 阅读 · 0 评论 -
HDFS1概述
HDFS概述HDFS(hadoop Distributed File System)被设计为可以运行在通用通用硬件上、提供流式数据操作、能够处理超大文件的分布式文件系统。HDFS具有高度容错、高吞吐量、容易扩展、高可靠性等特征。使用场景适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘优点高容错性(1)数据自动保存为多个副本。它通过增加副本的形式,提高容错性。(2)某一个副本丢失后,它可以自动恢复适合处理大数据(1)数据规模:能够处理原创 2020-10-13 16:18:16 · 220 阅读 · 0 评论