
Hadoop
文章平均质量分 84
Hub-Link
这个作者很懒,什么都没留下…
展开
-
阿里云EMR购买流程
阿里云EMR原创 2022-05-03 23:44:38 · 733 阅读 · 0 评论 -
HDFS工作原理
一、HDFS 组成架构1)NameNode(nn):就是Master,它是一个主管、管理者。(1)管理HDFS的名称空间(2)配置副本策略(3)管理数据块(Block)映射信息(4)处理客户端读写请求。2)DataNode:就是Slave。NameNode下达命令,DataNode执行实际的操作。(1)存储实际的数据块(2)执行数据块的读/写操作。3)Client:就是客户端。(1)文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block原创 2021-10-29 22:55:33 · 3226 阅读 · 0 评论 -
Hadoop的HA原理
一、概述Hadoop的HA应该分为HDFS 的 HA 和 YARN 的 HA,主要是解决NameNode和ResourceManager的单点故障问题,所以HA就是通过配置 Active/Standby 两个 实例来解决单点故障二、HDFS-HA 工作机制2.1HDFS-HA 工作要点(1)元数据管理方式改变两个NameNode内存中各自保存一份元数据,Edits 日志只有 Active 状态的 NameNode 节点可以做写操作,两个 NameNode 都可以读取 Edits,共享的.原创 2021-10-20 23:25:54 · 1353 阅读 · 0 评论 -
Yarn架构原理
一、基础架构YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。1)ResourceManager(RM)(1)处理客户端请求(2)监控NodeManager(3)启动或监控ApplicatitionMaster(4)资源的分配和调度2)NodeManager (NM)(1) 管理单节点上的资源...原创 2021-10-17 23:03:55 · 570 阅读 · 0 评论 -
MapReduce的Partition 分区
一、Partitioner分区位置从MapRedece框架原理里面我们发现在进入环形缓冲区有一个分区的操作,如图二、Partitioner分区机制源码默认采用HashPartitioner,源码如下public class HashPartitioner<K2, V2> implements Partitioner<K2, V2> { public void configure(JobConf job) {} /** Use {@link ...原创 2021-10-16 13:31:46 · 638 阅读 · 0 评论 -
MapReduce 框架原理
一、MapReduce 框架原理一图胜过千言万语二、切片与 MapTask 并行度决定机制数据块:Block 是 HDFS 物理上把数据分成一块一块。数据块是 HDFS 存储数据单位。数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片是 MapReduce 程序计算输入数据的单位,一个切片会对应启动一个 MapTask,所以切片数决定了MapTask并行数三、Shuffle 过程Map 方法之后,Reduce 方法之前的...原创 2021-10-16 10:26:24 · 504 阅读 · 0 评论 -
YARN UI界面日志详解二——某个任务详细日志
一、任务日志在哪前面我们已经了解了ResourceManagerUI界面,我们也看到了下图:就在Applications下的几个状态中,只要你是提交到yarn来管理的任务那一定在这几个状态中的某一个,所以弄清楚这几个状态的日志信息那我们就能知道某个任务的运行状况了。在实际工作中NEW、NEW_SAVING、SUBMITTED这三个用到的概率还是非常低的,而ACCEPTED、RUNNING、FINISHED、FAILE、KILLED这五个那是经常使用的,所以我们重点关注:ACCEPTED.原创 2021-06-27 23:26:11 · 2340 阅读 · 2 评论 -
YARN UI界面日志详解一
一、查看yarn日志的方式如果是Apache搭建的集群 可以通过ResourceManager角色服务器的IP来访问(http://hadoop101:8088/cluster)原创 2021-06-20 16:04:36 · 6387 阅读 · 2 评论 -
Mapreduce序列化
1、序列化概述序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2、为什么要序列化大数据集群都是分布式的模式,对象基本都是要跨集群传输的,所以必须要能够序列化3、为什么不用 Java 的序列化Java 的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,Header,继承体系等),原创 2021-06-08 00:24:13 · 1365 阅读 · 1 评论 -
MapReduce实现WordCount
一、MapReduce 核心编程思想主要为map阶段和reduce阶段,如图二、MapReduce 进程(1)MrAppMaster:负责整个程序的过程调度及状态协调。(2)MapTask:负责 Map 阶段的整个数据处理流程。(3)ReduceTask:负责 Reduce 阶段的整个数据处理流程。三、MapReduce 编程规范用户编写的程序分成三个部分:Mapper、Reducer 和 Driver。1.Mapper阶段(1)用户自定义的类要继承Mapper类.原创 2021-06-06 23:25:41 · 2500 阅读 · 9 评论