
hadoop
文章平均质量分 89
微毂
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
5 YARN资源调度
YARN资源调度 第 1 节 Yarn架构 ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度; NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来⾃ApplicationMaster的命令; ApplicationMaster(am):数据切分、为应⽤程序申请资源,并分配给内部任务、任务监控与容错。 Container:对任务运行环境的抽象,封原创 2021-02-20 15:31:14 · 132 阅读 · 0 评论 -
4 MapReduce编程框架
MapReduce编程框架 第 1 节 MapReduce思想 MapReduce思想在⽣活中处可见。我们或多或少都曾接触过这种思想。MapReduce的思想核⼼是分而治之,充分利用了并⾏处理的优势。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,⽽不是⾃己原创。 MapReduce任务过程是分为两个处理阶段: Map阶段:Map阶段的主要作用是“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。Map阶段的这些任务可以并行计算,彼此间没有依赖关系。 Reduce阶段:Reduc原创 2021-02-20 15:26:55 · 277 阅读 · 0 评论 -
3 Hadoop-HDFS分布式⽂件系统
3.1 HDFS 简介 HDFS (全称:Hadoop Distribute File System,Hadoop 分布式⽂件系统)是 Hadoop 核⼼组成,是分布式存储服务。 分布式⽂件系统横跨多台计算机,在⼤数据时代有着⼴泛的应⽤前景,它们为存储和处理超⼤规模数据提供所需的扩展能⼒。 HDFS是分布式⽂件系统中的⼀种。 重要概念 HDFS 通过统⼀的命名空间⽬录树来定位⽂件; 另外,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各⾃的⻆⾊(分布式本质是拆分,各司其职); 典型的 Ma原创 2021-01-18 16:21:01 · 377 阅读 · 2 评论 -
2 Hadoop 环境配置
2 Hadoop 环境配置原创 2021-01-17 23:15:05 · 197 阅读 · 0 评论 -
1 Hadoop 简介
1 Hadoop 简介原创 2021-01-17 22:13:07 · 272 阅读 · 2 评论 -
Hadoop-MR join 案例分析
1 MR Reduce端join 代码实现 Bean package com.lagou.join; import org.apache.hadoop.io.Writable; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; public class JoinBean implements Writable { private String userId; privat原创 2021-01-17 19:41:40 · 248 阅读 · 1 评论