
HDFS
今夕何夕-l
这个作者很懒,什么都没留下…
展开
-
Hadoop生态系统框架详解(二):HDFS
HDFS 产生背景:随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 概念: ...原创 2020-09-23 18:56:40 · 445 阅读 · 0 评论 -
HDFS之DataNode工作机制
一个数据块在 DataNode 上以文件形式存储在对应服务器的磁盘上,包括两 个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和, 以及时间戳。 DataNode 启动后向 NameNode 注册,通过后,周期性(1 小时)的向 NameNode 上报所有的块信息。 心跳是每 3 秒一次,心跳返回结果带有 NameNode 给该 DataNode 的命令如复 制块数据到另一台机器,或删除某个数据块。如果超过 10 分钟没有收到某个 DataNode 的心跳,则认为该节点不可用。 集群运行中原创 2020-09-24 10:40:36 · 199 阅读 · 0 评论 -
HDFS之NameNode和SecondaryNameNode的关系解读
NN和SNN工作机制 1.NameNode启动 ①第一次启动 NameNode 格式化后,创建 fsimage 和 edits 文件。如果不 是第一次启动,直接加载镜像文件和编辑日志到内存。 ②客户端对元数据进行增删改的请求。 ③NameNode 记录操作日志,更新滚动日志。 ④NameNode 在内存中对数据进行增删改查。 2.SecondaryNameNode工作 ①Secondary NameNode 询问 NameNode 是否需要 checkpoint。直接带回 NameNode 是否检查结果。原创 2020-09-24 10:25:57 · 332 阅读 · 0 评论 -
HDFS之hdfs Java API以及I/O流的操作过程
环境准备 1.解压 hadoop 安装包到非中文路径(例如:D:\users\hadoop-2.6.0-cdh5.14.2) 2.在 windows 上配置 HADOOP_HOME 环境变量(与 windows 配置 jdk 环境变量方法类似) 3.创建一个 Maven 工程 HdfsClientDemo 4.导入相应依赖如下: <!-- https://mvnrepository.com/artifact/org.apache.logging.log4j/log4j-core --> <原创 2020-09-24 02:53:00 · 279 阅读 · 0 评论 -
HDFS之Shell 命令
常用命令大全: -help:查看命令的使用方式 -ls: 显示目录信息 -mkdir:在hdfs上建目录 ①hdfs dfs -mkdir /bigdata ②hdfs dfs -mkdir -p /kgc/test -moveFromLocal: 从本地剪切粘贴到hdfs上 -appendToFile:追加一个文件到已经存在的文件的末尾 -cat: 显示文件内容 -tail: 显示一个文件的末尾 -chgrp/chmod/chown liunx:文件系统用法 用于修改文件所属权限 ①hdfs dfs -c原创 2020-09-23 19:46:33 · 278 阅读 · 0 评论 -
HDFS之HDFS读写流程
HDFS读文件 流程图解 详细步骤 1.首先调用FileSystem.open()方法,获取到DistributedFileSystem实例。 2.DistributedFileSystem 向Namenode发起RPC(远程过程调用)请求获得文件的开始部分或全部block列表,对于每个返回的块,都包含块所在的DataNode地址。这些DataNode会按照Hadoop定义的集群拓扑结构得出客户端的距离,然后再进行排序。如果客户端本身就是一个DataNode,那么他将从本地读取文件。 3.Distribu原创 2020-09-23 19:24:23 · 270 阅读 · 0 评论