
Hadoop
文章平均质量分 92
Hadoop笔记
大数据点滴
不忘初心,方得始终。
展开
-
HDFD 回收站【Trash】机制
HDFS Trashji机制知识总结原创 2023-04-03 10:33:55 · 1925 阅读 · 0 评论 -
Hadoop2.x与Hadoop3.x的默认端口变化
Namenode 端口:2.x端口 3.x端口 name desc 50470 9871 dfs.namenode.https-address The namenode secure http server address and port. 50070 9870 dfs.namenode.http-address The address and the base port where the dfs namenode web ui will原创 2020-09-23 00:22:22 · 6224 阅读 · 0 评论 -
Hadoop常用端口号
HDFS、YARN、HBase、Hive、Zookeeper常用端口号:组件 节点 默认端口 配置 用途说明 HDFS DateNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DateNode 50075 dfs.datanode.http.address http服务的端口 HDFS DateNode 50475 dfs.datano.原创 2020-09-22 23:52:18 · 5127 阅读 · 0 评论 -
Hadoop新特性
目录1、2.x新特性1.1 集群间数据拷贝1.2 小文件存档1.3 回收站2、 3.x新特性2.1 多NN的HA架构2.2 纠删码1、2.x新特性1.1 集群间数据拷贝1)scp实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 pushscp -r root@hadoop103:/user/atguigu/hello.txt hell...原创 2020-08-27 17:24:56 · 3956 阅读 · 0 评论 -
Hadoop HA 高可用
1、 HA概述(1)所谓HA(High Availablity),即高可用(7*24小时不中断服务)。(2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。(3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。(4)NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启 NameNode机器需要升级,包括软件、硬件升级,此时集群原创 2020-08-27 17:17:17 · 4481 阅读 · 0 评论 -
Hadoop企业优化
目录1、 MapReduce 跑的慢的原因2、 MapReduce优化方法2.1 数据输入2.2 Map阶段2.3 Reduce阶段2.4 I/O传输2.5 数据倾斜问题2.6 常用的调优参数3、 HDFS小文件优化方法3.1 HDFS小文件弊端3.2 HDFS小文件解决方案1、 MapReduce 跑的慢的原因2、 MapReduce优化方法MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾..原创 2020-08-27 17:07:32 · 4944 阅读 · 0 评论 -
Hadoop数据压缩
目录1、 概述2、 MR支持的压缩编码3、 压缩方式选择3.1 Gzip压缩3.2 Bzip2压缩3.3 Lzo压缩3.4 Snappy压缩4、 压缩位置选择5、 压缩参数配置1、 概述压缩策略与原则2、 MR支持的压缩编码 压缩格式 hadoop自带? 算法 文件扩展名 是否可切分 换成压缩格式后,原来的程序是否需要修改 ..原创 2020-08-27 16:58:07 · 5767 阅读 · 0 评论 -
Hadoop组成
Hadoop1.x与Hadoop2.x的区别1、 HDFS架构概述2、 YARN架构概述YARN架构3、 MapReduce架构概述MapReduce将计算过程分为两个阶段:Map和Reduce1)Map阶段并行处理输入数据2)Reduce阶段对Map结果进行汇总...原创 2020-08-27 16:26:19 · 5784 阅读 · 0 评论 -
Hadoop资源调度器
目前,Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler。Hadoop3.1.3默认的资源调度器是Capacity Scheduler。具体设置详见:yarn-default.xml文件<property> <description>The class to use as the resource scheduler.</description> <name>yarn.res原创 2020-08-18 20:29:23 · 4196 阅读 · 0 评论 -
Hadoop之MapReduce详解
目录一、 MapReduce概述1.1 MapReduce定义1.2 MapReduce优缺点1.2.1 优点1.2.2 缺点1.3 MapReduce核心思想1.4 MapReduce进程1.5 官方WordCount源码1.6 常用数据序列化类型二、 Hadoop序列化2.1 序列化概述2.2 自定义bean对象实现序列化接口(Writable)三、 MapReduce框架原理3.1 InputFormat数据输入3.1.1 切片与MapTas原创 2020-08-18 20:12:58 · 4822 阅读 · 0 评论 -
HDFS概述
目录一、定义二、HDFS优缺点2.1 优点2.2 缺点三、HDFS组成架构四、HDFS文件块大小一、定义二、HDFS优缺点2.1 优点2.2 缺点三、HDFS组成架构四、HDFS文件块大小...原创 2020-08-18 17:02:45 · 3464 阅读 · 0 评论 -
DataNode相关机制
1、 DataNode工作机制(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。(3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。.原创 2020-08-17 21:27:07 · 2677 阅读 · 0 评论 -
NameNode和SecondaryNameNode
1、 NN和2NN工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数原创 2020-08-17 21:11:23 · 2602 阅读 · 0 评论 -
HDFS的读写数据流
一、 HDFS读数据流程1、 剖析文件写入客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。NameNode返回是否可以上传。客户端请求第一个 Block上传到哪几个DataNode服务器上。NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn.原创 2020-08-17 20:58:24 · 2669 阅读 · 0 评论 -
HDFS的Shell操作
1、 基本语法bin/hadoop fs 具体命令 或者 bin/hdfs dfs 具体命令2、 命令大全[atguigu@hadoop102 hadoop-3.1.3]$ bin/hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src&g...原创 2020-08-17 20:23:40 · 3105 阅读 · 0 评论 -
YARN资源调度器原理
1、Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。2、Yarn架构图3、Yarn工作机制(1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一个Application。(3)RM将该应用程序的资源路径返回给YarnRunner。(4)该程序将运行所需资源提交到HDFS上。(5)程序资源提交完毕后,申请运行mrAppMaster。原创 2020-07-26 17:15:22 · 1566 阅读 · 0 评论