
Hadoop
文章平均质量分 63
BubbleMa
这个作者很懒,什么都没留下…
展开
-
Hadoop-HA
一、集群五种安装模式1. 单机2. 伪分布式3. 完全分布式 一个主节点,一个冷备份节点 存在单点故障问题4. 高可用 多个主节点,多个从节点,从一时刻只有一个active主节点提供服务,主节点仍然是一台机器的性能,主节点压力过大。5. 联邦块池:联邦模式中标志数据块的管理权限 同一时间多个主节点提供服务,多个namenode依赖于块池id区分数据归属多个namenode共同...原创 2022-03-24 15:23:00 · 278 阅读 · 0 评论 -
Yarn mr1.0
资源调度:主从jobtracker:1. 负责mr任务的资源调度,分配资源2. 启动mr任务3. 监控当前mr任务的执行进度和状态1)jobtracker没有高可用配置方案,存在单点故障问题2)jobtracker压力过大,既要负责资源分配,又要负责应用程序的跟踪tasktracker:将资源分为mapslot和reduceslot,资源严重浪费1. jobtracker单点故障2. jo...原创 2022-03-22 14:50:33 · 245 阅读 · 0 评论 -
Hadoop(七) -- Yarn
一、Yarn概述资源调度器,负责计算程序的资源调度。Yarn采用主从架构,主节点RecourceManager,从节点NodeManager。1. ResourceManagerResourceManager是基于应用程序对集群资源的需求进行调度的YARN集群主控节点,负责协调和管理整个集群(所有nodemanager的资源),相应用户提交的不同类型应用程序的解析,调度,监控等工作。ResourceManager为每个Application启动一个MRAppMaster,并且...原创 2021-12-13 22:24:48 · 834 阅读 · 0 评论 -
Hadoop(六) -- MapReduce(四)join
MapReduce, map join, reduce join原创 2021-12-13 18:32:23 · 350 阅读 · 0 评论 -
Hadoop(五) -- MapReduce(三)shuffle
mepreduce共三个模块,map、shuffle、reduce。map端读取数据并将数据映射为键值对发送给ruduce端,在发送过程中会进过一个shuffle过程(分区、排序、分组),数据先按分区规则进行分区,分区后再对每个分区中的数据进行排序,最后再对排序后的数据进行分组(相同key的为一组)。经过shuffle之后,数据已经分为了不同的区,每个区中的数据已经排好序传入reduce端,reduce端每次读入一个组的数据进行处理。一、排序 当map端发送的key是自...原创 2021-12-13 17:04:51 · 479 阅读 · 0 评论 -
Hadoop(四) -- MapReducer(二)maptask和reducetask并行度
一、MapTask的并行度 运行map部分的任务叫做maptask,并行度是指同时运行的maptask的任务个数。maptask处理的数据量对应于一个文件切片,每个maptask处理一个文件切片大小的数据。 MapReducer任务运行时通过 FileInputFormat 类传入输入数据文件,该类在读取文件时会调用 getSplit() 方法对文件进行逻辑切片。 getSplit() 部分源码如下,当使用默认配置时切片大小默认等于HDFS分块大小1...原创 2021-12-10 18:52:38 · 883 阅读 · 0 评论 -
Hadoop(三) -- MapReduce(一)WordCount
一、设计思想 移动计算代替移动数据。分而治之。MapReduce是一个分布式计算框架,借助函数式编程思想,用Map和Reduce两个函数编程实现基本的并行计算任务。MapReducer内部封装了文件读取操作,用户在使用时只需要继承Mapper和Reducer类并实现map和reduce两个方法(相当于将自己的业务逻辑作为参数传入MapReducer框架)即可实现大数据分布式计算。 MapReduce计算模型主要由三个阶段构成:Map、shuffle...原创 2021-12-10 17:44:17 · 832 阅读 · 0 评论 -
Hadoop(二) -- HDFS
一、设计思想 1. 分块存储 文件在hdfs中采用分块方式存储,hadoop2中数据块默认大小为128M。每个文件在hdfs中存储时被切分成多个大小相同的块,若数据大小不足128M也按照128M进行存储。 2. 备份存储 hdfs底层采用空间换取数据安全,每个数据块会复制多个副本存储在不同的节点上。多个副本之间互为备份,没有主次之分。 3. 元数据 记录...原创 2021-12-06 17:27:24 · 1140 阅读 · 0 评论 -
Hadoop(一)
一、大数据相关概念 1. 集群 很多机器共同完成一个任务,多台机器叫做一个集群,每一个机器叫做一个节点。 2. 分布式 一个任务被分成多个小任务,每个机器只负责一个小任务,这个任务的执行就是分布式执行。 3. 负载均衡 同一个集群中的每一个节点分担的任务相等二、Hadoop模块 1. common ...原创 2021-12-06 16:27:15 · 216 阅读 · 0 评论