
MapReduce
sghuu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop支持Lzo压缩配置及案例
hadoop支持Lzo压缩配置 1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。 2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/ [atguigu@hadoop102 common]$ pwd...原创 2019-11-01 20:59:41 · 788 阅读 · 2 评论 -
Mapreduce基础介绍
** Mapreduce基础介绍 介绍 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop的 数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个 完整的分布式运算程序,并发运行在一个 Hadoop集群上。 优点: 1.MapReduce易于编程 它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可 以分...原创 2019-08-04 23:47:00 · 212 阅读 · 0 评论 -
MapReduce序列化举例
*MapReduce序列化举例 ** 具体实现bean对象序列化步骤如下7步。 (1)必须实现Writable接口 (2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造 根据需求添加set方法 以便在mapper或reduce中使用; public FlowBean() { super(); } (3)重写序列化方法 @Override public void write(Da...原创 2019-08-09 19:41:28 · 441 阅读 · 0 评论 -
自定义实现FileInputFormate
主要实FileInputFormate类重写createRecordReader方法,然后自定义RecordReader重写读取机制;输出以SequenceFileOutputFormat; package com.atguigu.mapreduce.inputformat; import java.io.IOException; import org.apache.hadoop.fs.Path;...原创 2019-08-09 19:57:10 · 515 阅读 · 0 评论 -
MapReduce工作机制和流程
** MapReduce工作机制和流程 **上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下: 1)MapTask收集我们的map()方法输出的kv对,放到内存缓冲区中 2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件 3)多个溢出文件会被合并成大的溢出文件 4)在溢出过程及合并的过程中,都要调用Pa...原创 2019-08-09 20:09:52 · 399 阅读 · 0 评论 -
mapreduce序列化描述
什么是序列化: 序列化 是把内存中的对象,转换成字节序列(或者其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。 反序列化 就是将收到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。 为何不使用java的序列化机制: java的序列化是一个重量级的序列化框架,一个对象被序列化后,会附带二外多的信息(各种校验信息,Header,继承机制),不便于在网络中的高效传输,...原创 2019-09-28 19:17:55 · 182 阅读 · 0 评论