
MapReduce
sghuu
这个作者很懒,什么都没留下…
展开
-
hadoop支持Lzo压缩配置及案例
hadoop支持Lzo压缩配置1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/[atguigu@hadoop102 common]$ pwd...原创 2019-11-01 20:59:41 · 765 阅读 · 2 评论 -
Mapreduce基础介绍
**Mapreduce基础介绍介绍MapReduce是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop集群上。优点:1.MapReduce易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分...原创 2019-08-04 23:47:00 · 197 阅读 · 0 评论 -
MapReduce序列化举例
*MapReduce序列化举例**具体实现bean对象序列化步骤如下7步。(1)必须实现Writable接口(2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造根据需求添加set方法 以便在mapper或reduce中使用;public FlowBean() {super();}(3)重写序列化方法@Overridepublic void write(Da...原创 2019-08-09 19:41:28 · 425 阅读 · 0 评论 -
自定义实现FileInputFormate
主要实FileInputFormate类重写createRecordReader方法,然后自定义RecordReader重写读取机制;输出以SequenceFileOutputFormat;package com.atguigu.mapreduce.inputformat;import java.io.IOException;import org.apache.hadoop.fs.Path;...原创 2019-08-09 19:57:10 · 499 阅读 · 0 评论 -
MapReduce工作机制和流程
**MapReduce工作机制和流程**上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下:1)MapTask收集我们的map()方法输出的kv对,放到内存缓冲区中2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件3)多个溢出文件会被合并成大的溢出文件4)在溢出过程及合并的过程中,都要调用Pa...原创 2019-08-09 20:09:52 · 367 阅读 · 0 评论 -
mapreduce序列化描述
什么是序列化:序列化是把内存中的对象,转换成字节序列(或者其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。为何不使用java的序列化机制:java的序列化是一个重量级的序列化框架,一个对象被序列化后,会附带二外多的信息(各种校验信息,Header,继承机制),不便于在网络中的高效传输,...原创 2019-09-28 19:17:55 · 171 阅读 · 0 评论