
hadoop(HDFS)
文章平均质量分 86
不念人间朝暮
这个作者很懒,什么都没留下…
展开
-
四、HADOOP(HDFS)—01
四、HADOOP(HDFS)—01 1、Haoop常用端口号 Hadoop2.x hadoop3.x 访问HDFS端口 50070 9870 访问MR执行情况端口 8088 8088 历史服务器 19888 19888 客户端访问集群端口 9000 8020 2、Hadoop配置及集群的搭建 (1) 配置文件: Hadoop2.x Hadoop3.x core-site.xml core-site.xml hdfs-site.xml hdfs-site.原创 2021-08-08 22:13:50 · 120 阅读 · 0 评论 -
四、HaDOOP(HDFS)-02
四、HaDOOP(HDFS)-02 HDFS之shell操作 1、基础语法 bin/hadoop fs 具体命令 bin/hdfs dfs 具体命令 2、命令大全 [lyinl@hadoop102 hadoop-2.7.2]$ bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R原创 2021-08-08 23:06:04 · 115 阅读 · 0 评论 -
四、HADOOP(HDFS)-03
四、HADOOP(HDFS)-03 HDFS客户端操作 1、HDFS 客户端环境准备 1、根据自己电脑的操作系统拷贝对应的编译后的 hadoop jar 包到非中文路径(例如:D:\Develop\hadoop-2.7.2) 2、配置 HADOOP_HOME 环境变量 3、配置 Path 环境变量 4、创建一个 Maven 工程 HdfsClientDemo 5、导入相应的依赖坐标+日志添加 <dependencies> <dependency> <groupId>原创 2021-08-09 08:18:48 · 240 阅读 · 0 评论 -
四、HADOOP(HDFS)-04
四、HADOOP(HDFS)-04 HDFS数据流(重点) 1、HDFS写数据流程 1、剖析文件的写入 (1) 客户端通过Distributed FilSystem 模块向NameNode请求上传文件,NameNode检查目标文件是否已经存在,父目录是否存在。 (2) NameNode返回是否可以上传。 (3) 客户端请求第一个Block上传到哪几个DataNode服务器上。 (4) 客户端通过FSDataOutputStream 模块请求dn1上传数据,dn1疏导请求会继续调用dn2,然后dn2调用dn原创 2021-08-09 18:10:12 · 125 阅读 · 0 评论 -
四、HADOOP(HDFS)-05
四、HADOOP(HDFS)-05 NameNode 和 SecondaryNameNode(重点) 1、NameNode和SecondaryNameNode工作机制 1、NameNode的工作机制 (1)第一阶段:NameNode启动 a、第一次启动NameNode格式化后,创建Fsimage和Edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 b、客户端对元数据进行增删改的请求。 c、NameNode 记录操作日志,更新滚动日志。 d、NameNode在内存中对数据进行增删改。 (原创 2021-08-11 16:16:34 · 185 阅读 · 0 评论 -
四、HADOOP(HDFS)-06
四、HADOOP(HDFS)-06 DataNode(重点) 1、DataNode工作机制 如下图: (1) 一个数据块DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度、块数据的校验和、以及时间戳。 (2) DataNode启动后向NameNode注册,通过后,周期性(1小时)的NameNode上包所有的块信息。 (3) 心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某原创 2021-08-11 18:25:32 · 100 阅读 · 0 评论 -
四、HADOOP(HDFS)-07
四、HADOOP(HDFS)-07 HDFS2.X新特性 1、集群间数据拷贝 1、scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/hello.txt #推 push scp -r root@hadoop103:/user/hello.txt hello.txt # 拉 pull scp -r root@hadoop103:/user/hello.txt root@hadoop104:/user/ #通过本地主机中转实现两个远程主机的文原创 2021-08-11 19:40:11 · 127 阅读 · 0 评论 -
四、HADOOP(HDFS)-08
四、HADOOP(HDFS)-08 HDFS HA 高可用 1、HA 概述 1)所谓 HA(High Available),即高可用(7*24 小时不中断服务)。 2)实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA 机制: HDFS 的 HA 和 YARN 的 HA。 3)Hadoop2.0 之前,在 HDFS 集群中 NameNode 存在单点故障(SPOF)。 4)NameNode 主要在以下两个方面影响 HDFS 集群 NameNode原创 2021-08-17 18:31:01 · 145 阅读 · 0 评论 -
HDFS之MapReduce(特别篇)
HDFS之MapReduce(特别篇) 1、MapReduce概述 1、MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整分布式运算程序,并发运行在一个Hadoop集群上。 2、MapReduce优点 1、MapReduce易于编程 它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。原创 2021-08-17 22:06:27 · 896 阅读 · 0 评论