Z_Data的博客

专注大数据知识分享

MapReduce

关注

文章平均质量分 70

关注数：文章数：32 文章阅读量：27446 文章收藏量：110

作者: Z_Data

大学计算机专业老师一枚，高级开发工程师，专注大数据相关技术分享，实战项目开发。

展开

MapReduce ON YARN工作流程

YARN是一个统一的资源调度框架，它可以运行很多种应用程序，如MapReduce、spark、Flink等，接下来以MapReduce为例详细介绍作业在YARN中的工作流程。

原创 2023-09-28 15:01:44 · 296 阅读 · 0 评论
MapRecue实例开发 ------ 编程篇（经典wordcount程序编写）

目录 1、编程步骤2、经典的wordcount程序编写编写代码1、编程步骤用户编写的程序分成三个部分：Mapper，Reducer，Driver(提交运行mr程序的客户端) Mapper的输入数据是KV对的形式（KV的类型可自定义） Mapper的输出数据是KV对的形式（KV的类型可自定义） Mapper中的业务逻辑写在map()方法...

原创 2018-11-08 11:30:42 · 477 阅读 · 0 评论
MapReduce经典案例 -------- 统计最高温度

需求：求给定日期的最高温度待处理数据内容： 201701082.6 201701066 2017020810 2017030816.33 2017060833.0每一行的前8位是日期，从第8位往后是温度代码import java.io.IOException;import org.apache.hadoop.conf.Configuration;...

原创 2018-11-09 08:51:55 · 2746 阅读 · 0 评论
MapReduce经典案例 ------- 学生成绩处理

目录算每个人的平均成绩求每个学科的平均成绩总平均分每个分数段的人数以及百分比将三门课程中任意一门不及格的学生过滤出来统计成材率每一门成绩都大于60分的人数/总人数待处理数据内容：学生成绩表名字语文数学英语 lh 92 68 70 zyt 94 88 75 ls 96 78 ...

原创 2018-11-09 08:52:23 · 3827 阅读 · 1 评论
Hadoop 集群中运行MapReduce的一些必要知识

目录 1、 hadoop集群各主机时间要一致2、 yarn的聚合日志3、 awk（sed）和 mr1、 hadoop集群各主机时间要一致时间同步：1、date -s ""2、基于ntp服务的时间同步 (c/s)3、将配置好的ntp用脚本做定时任务rpm -q ntp 查询是否安装ntp配置：选择作为ntpserver的服务器进行配置vi /etc/n...

原创 2018-11-09 08:52:32 · 382 阅读 · 0 评论
MapReduce运行机制全流程 -------- 包括shuffle机制详解（附图）

目录 1 概述2 主要流程3 流程细分1、由wordcount案例执行开始分步演示mapreduce运行逻辑（较粗，但对初学者理解mr有帮助）2、MR结合yarn运行逻辑3、MR客户端程序业务流程4、MRAppmaster控制map与reduce运行的工作流程5、shuffle流程1 概述mapreduce中，map阶段处理的数据如何传递给reduce阶...

原创 2018-11-12 09:15:21 · 965 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ------ 获取文件名

在map运行时获取被处理数据所在文件的文件名import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io....

原创 2018-11-09 08:53:19 · 372 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ---------- 多文件输出

将MR处理后的结果数据输出到多个文件中import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Pa...

原创 2018-11-09 08:53:08 · 293 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ---------------- partition分区

Mapreduce中会将map输出的kv对，按照相同key分组，然后分发给不同的reducetask默认的分发规则为：根据key的hashcode%reducetask数来分发，所以：如果要按照我们自己的需求进行分组，则需要改写数据分发（分组）组件Partitioner。自定义一个CustomPartitioner继承抽象类：Partitioner 然后在job对象中，设置自定义...

原创 2018-11-09 08:52:58 · 607 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ------------- 去除重复

去除文件中重复的行import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;...

原创 2018-11-09 08:53:29 · 1151 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 -------- 过滤敏感词汇

一篇文章 article.txt 内容如下：We ask that you please do not send us emails privately asking for support. We are non-paid volunteers who help out with the project and we do not necessarily have the time o...

原创 2018-11-09 08:53:40 · 1551 阅读 · 1 评论
结合案例讲解MapReduce重要知识点 ---------- Combiner

combiner是MR程序中Mapper和Reducer之外的一种组件 combiner组件的父类就是Reducer combiner和reducer的区别在于运行的位置： Combiner是在每一个maptask所在的节点运行 Reducer是接收全局所有Mapper的输出结果； combiner的意义就是对每一个maptask的输出进行...

原创 2018-11-09 08:53:49 · 280 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ----------- 倒排序

需求：文章及其内容： index.html : hadoop is good hadoop hadoop is ok page.html : hadoop has hbase hbase is good hbase and hive content.html : hadoop spark hbase are good ok输出： and page.html:1 are content...

原创 2018-11-09 08:53:58 · 762 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 --------- 简单排序

import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org....

原创 2018-11-10 08:49:41 · 234 阅读 · 0 评论
Hadoop详解 ----------- shuffle原理、partitioner分区原理、Combiner编程、常见的MR算法

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.youkuaiyun.com/u013087513/article/details/77799686 Partitioner编程Partition简介shuffle是通过分区partitioner ...

转载 2018-11-12 09:17:14 · 416 阅读 · 0 评论
mapreduce概述 ------- 快速入门篇

MapReduce是什么mapreduce：分布式并行离线计算框架，是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架；Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上；与HDFS解决问题的原理类似，HDFS是将大的文件切分成若干小文件，然后将它们分别存储到集群中各个主...

原创 2018-11-08 11:17:20 · 396 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 --------- 自定义OutputFormat

需求现有一些原始日志需要做增强解析处理，流程：（1）从原始日志文件中读取数据（2）根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志（3）如果成功增强，则输出到增强结果目录；如果增强失败，则抽取原始数据中URL字段输出到待爬清单目录。实现的需求是：默认reduce执行后，输出数据的目的文件是固定的一个文件，那怎样实现根据数据的不同...

原创 2018-11-11 17:33:30 · 283 阅读 · 0 评论
Shuffle机制运行原理

2.4.1&nbsp;概述1）mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle；2）shuffle:&nbsp;洗牌、发牌（核心机制：数据分区、排序、缓存）；3）具体来说：就是将maptask输出的处理结果数据，分发给reducetas...

转载 2018-11-07 11:52:38 · 500 阅读 · 0 评论
MapReduce数据类型

MapReduce数据类型都实现了Writable接口，以便用这些类型定义的数据可以被序列化进行网络传输和文件存储基本数据类型： BooleanWriable：标准布尔型数 ByteWriable：单字节数 DoubleWriable：双字节数值 FloatWriable：浮点数 IntWriable：整型数 LongWriable：长整...

原创 2018-11-12 09:15:59 · 1695 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ----------- 自定义MapReduce数据类型（1）重写Writable接口

重写Writable接口如下代码就是自定义mr数据类型，在wordcount类使用它。WordCountWritableimport java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;/** * 自定义wc...

原创 2018-11-10 08:57:54 · 941 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 -------- 使用自定义数据实现内存排序

自定义数据WCDataimport java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;/** * 自定义数据类型 * @author lyd * */public class WCData...

原创 2018-11-10 09:01:10 · 293 阅读 · 0 评论
HDFS集群启动、YARN集群、简单操作演示

目录启动集群 1、格式化HDFS 因为HDFS也是文件系统，第一次使用一个文件系统都要格式化 2、启动hdfs集群（注意启动集群时，最好将集群中所有机器的时间设置一致 3、启动yarn集群 4、使用web查看集群的状态 5、hdfs简单操作演示 6、系统自带mapreduce案例演示启动集群 1、格式化HDFS 因为HDFS也是文件系统，第一次使...

原创 2018-11-07 14:16:26 · 2758 阅读 · 0 评论
HDFS集群使用效果演示

1 HDFS的基本使用查看集群状态 1、打开web控制台查看HDFS集群信息，在浏览器打开http://192.168.18.64:50070/2、使用命令查看：hdfs dfsadmin -report使用shell命令操作hdfs 从HDFS下载文件hadoop fs -get /wordcount/input/wordcount_content.txt #下...

原创 2018-11-07 14:34:21 · 434 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ------- 使用自定义MapReduce数据类型实现二次排序

自定义数据类型SSData import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class SSData implements WritableComparable<...

原创 2018-11-10 09:39:47 · 331 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ---------- 内存排序找出每一组中的最大值

待处理数据内容如下二次排序：23 32123 29023 56778 65078 55478 75616 1816 1616 159 89 09 3处理后的数据内容如下输出数据：-----------9 8-----------16 18----------23 567-----------78 756MapReduce类Find...

原创 2018-11-10 09:42:45 · 721 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ------- 排序找出每一组中的最大值（中间结果不在内存中）

功能：同内存排序求最大值，只是中间结果不在内存中，避免了数量过大造成内存溢出的问题。知识点分组比较器的使用 job.setGroupingComparatorClass(GroupingComparator.class);自定义mr类SSDataimport java.io.DataInput;import java.io.DataOutput;import java.i...

原创 2018-11-10 09:45:44 · 655 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ------- 两个表的简单join操作

待处理数据内容如下表1： child parent 张三王阿姨张三张大叔张张王阿姨张张张大叔王阿姨王奶奶王阿姨王大爷张大叔张奶奶张大叔张大爷处理后的数据内容如下输出数据：grandchild grandparent *张三张大爷 *张三张奶奶 *张三王奶奶 *张三王大爷 *张张张大爷 *张张张奶奶 ...

原创 2018-11-10 09:48:05 · 1248 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 --------- 多表连接

第一张表的内容：login：uid sexid logindate1 1 2017-04-17 08:16:202 2 2017-04-15 06:18:203 1 2017-04-16 05:16:244 2 2017-04-14 03:18:205 1 2017-04-13 02:16:256 2 2017-04-13 01:15:207 1 20...

原创 2018-11-10 10:10:33 · 879 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 --------- MapReduce各组件之间数据传递

简单说就是在map中设置一个值，在reduce中能够获得这个值 import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache...

原创 2018-11-11 17:32:56 · 600 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 --------- MapReduce中压缩设置

MapReduce中reduce执行完后，输出处理后的数据文件，那么该文件是可以被进行压缩处理的。 import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;...

原创 2018-11-11 17:33:10 · 414 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 --------- 多个job之间有序执行

每一个MapReduce程序都封装成一个job，而多个job之间呢？后一个job输入的数据，就是前一个job的输出的数据。本节就是演示这种场景：顺序执行两个job执行是有先后顺序的 import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoo...

原创 2018-11-11 17:33:21 · 701 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 -------- 内存排序

TOP N数据：hello qianfeng hello qianfeng qianfeng is best qianfeng better hadoop is goodspark is nice取统计后的前三名： qianfeng 4 is 3 hello 2import java.io.IOException;import java.util.Array...

原创 2018-11-10 08:49:58 · 311 阅读 · 0 评论