
MapReduce
文章平均质量分 60
qq_15014327
这个作者很懒,什么都没留下…
展开
-
1.MR基础_介绍
一.介绍Hadoop MapReduce是一个分布式并行框架。用于轻松编程,以可靠、容错的方式在大型集群(数千个节点)的商用硬件上并行处理大量数据(TB级别数据)。 虽然Hadoop框架是用Java实现的,但MapReduce应用程序不需要用Java编写,也可以使用其他语言编写。 Hadoop Streaming:是一个实用的程序,它允许用户运行的作业使用任何可执行文件创建(例如shell...原创 2018-10-12 21:58:38 · 470 阅读 · 0 评论 -
4.MR应用_HDFS文件格式
Hadoop中的文件格式大致上分为面向行和面向列两类: 面向行:同一行的数据存储在一起,即连续存储。SequenceFile,Avro Datafile。采用这种方式,如果只需要访问行的一小部分数据,亦需要将整行读入内存,推迟序列化一定程度上可以缓解这个问题,但是从磁盘读取整行数据的开销却无法避免。面向行的存储适合于整行数据需要同时处理的情况。 面向列:整个文件被切割为若干列数据,每一...原创 2018-10-16 18:38:38 · 2836 阅读 · 0 评论 -
9.MR源码分析_****
9.MR源码分析_****MappTaskShuffleReduceTask操作:Eclipse —> Search —> Java —> Search For原创 2018-10-15 20:45:46 · 227 阅读 · 0 评论 -
7.MR核心_Mapper_Reducer
1.Mapper在上一节我们看到了FileInputFormat把数据进行分片,然后提供RecordReader给Mapper。我们看看Mapper会如何处理:/** * Mappers是多个将input records转换为中间临时records的单个任务。 * 转换后的中间records不需要与input recordsx类型相同。 * 一个给定的<k,v>可能映...原创 2018-10-15 20:45:35 · 417 阅读 · 0 评论 -
6.MR核心_FilelnputFormat
FilelnputFormat是针对文件的基础类,它继承自InputFormat类。InputFormat是一个抽象类,所有的输入格式类都继承自InputFormat。它的子类有专门用于读取普通文件的FileInputFormat,还有用来读取数据库的DBInputFormat等等。/** * Map-Reduce框架依赖于作业的InputFormat: * 1.验证Job的输入规范。...原创 2018-10-15 20:45:27 · 168 阅读 · 0 评论 -
5.MR应用_经典案例二次排序
一.执行命令:设置MR参数yarn jar hdp-jar-with-dependencies.jar \cn.tl.WordCount \-Dmapred.output.compress=true \-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \-Dmapred.redu...原创 2018-10-15 20:45:19 · 622 阅读 · 0 评论 -
3.MR应用_经典案例WordCount
一.MapReduce WordCountMapReduce将作业的整个运行过程分为两个阶段:Map阶段Reduce阶段。Map阶段由一定数量的Map Task组成,例如:输入数据格式解析:InputFormat 输入数据处理:Mapper 数据分组:Partitioner 数据按照key排序 本地规约:Combiner(相当于local reducer,可选) 将任务输出保...原创 2018-10-15 20:45:09 · 1781 阅读 · 0 评论 -
2.MR基础_工作原理
一.MapReduce运行机制Client:提交MapReduce作业 ResourceManager:负责集群资源的统一管理和调度 NodeManager:它主要负责自己本身节点的资源管理和使用,以及定时向RM汇报本节点的资源使用情况 ApplicationMaster:主要负责应用程序的管理 HDFS:在其他角色间共享数据文件二.MapReduce框架MapReduce作...原创 2018-10-12 21:58:53 · 1158 阅读 · 0 评论 -
8.MR应用_经典习题
1.黑名单过滤package cn.tl.mr;import java.io.ByteArrayOutputStream;import java.io.IOException;import java.util.Arrays;import java.util.HashSet;import java.util.Set;import org.apache.hadoop.conf.C...原创 2018-10-18 09:57:26 · 451 阅读 · 0 评论