(大数据方向）分布式实验六：mapreduce编程实践

原创

已于 2022-03-24 23:26:31 修改 · 2.7k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#java #hadoop #eclipse #分布式 #mapreduce

于 2022-03-24 23:25:30 首次发布

注意：此次编程实践，在伪分布式上实践，所以首先需要启动伪分布式的节点

进阶任务代码已上传资源中
start-dfs.sh

一.新建项目

二.编写代码（包：com.jxxy.mr.test）

一.新建项目

使用xftp导入相关配置文件

配置文件 mapred-site.xml
yarn-site.xml
hdfs-site.xml core-site.xml

jar包 hadoop_jars（在实验eclipse中已创建好）

使用xftp导入到自己所建项目的src目录下

二.编写代码（包：com.jxxy.mr.test）

（1）WordCount主类

import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.IntWritable; 
import org.apache.hadoop.io.Text;

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Java从跨平台到跨行业

关注关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

吐血分享！大数据MapReduce开发的实战经验

架构师的AI之路，分享AI应用开发架构的学习与实践。

10-16

455

OutputFormat控制结果如何写入HDFS，除了默认的：二进制输出，适合后续MapReduce处理：将结果输出到多个文件（按条件分类）：直接写入数据库（谨慎使用，可能成为瓶颈）MultipleOutputs实战代码@Override@Override// 根据key前缀输出到不同文件} else {@Override// 务必关闭，否则可能导致文件损坏// Job配置数据预处理先行清洗、过滤、格式转换应尽早进行。

【大数据学习-实验-5】MapReduce应用

计忆芳华的博客

04-21

7817

1．编程实现WordCount实例。 package mapreduce; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop....

参与评论您还未登录，请先登录后发表或查看评论

大数据Mapreduce实验

06-07

大数据Mapreduce实验

Hadoop——实验七：MapReduce编程实践

maochaofei的博客

06-18

2927

文章目录一. 实验目的二. 实验内容三. 实验步骤及结果分析 1. 基于ubuntukylin14.04(7)版本，安装hadoop-eclipse-kepler-plugin-2.6.0.jar 1.1 安装hadoop-eclipse-plugin 1.2 配置hadoop-eclipse-plugin 2. 基于ubuntukylin14.04(8)版本，通过eclipse完成MapReduce编程实践 2.1 通过eclipse操作HDFS文件 2.2 通过eclipse创建MapReduce项目

MapReduce编程实践

weixin_30498807的博客

05-19

613

一、MapReduce编程思想学些MapRedcue主要是学习它的编程思想，在MR的编程模型中，主要思想是把对数据的运算流程分成map和reduce两个阶段： Map阶段：读取原始数据，形成key-value数据（map方法）。即，负责数据的过滤分发。 Reduce阶段：把map阶段的key-value数据按照相同的key进行分组聚合（reduce方法）。即，数据的计算归并。它其实是一...

大数据开发实战：MapReduce内部原理实践

weixin_33744854的博客

08-08

223

　　　　下面结合具体的例子详述MapReduce的工作原理和过程。　　　　以统计一个大文件中各个单词的出现次数为例来讲述，假设本文用到输入文件有以下两个：　　　　文件1：　　　　　　big data 　　　　　　offline data 　　　　　　online data 　　　　　　offline online data 　　　　文件2 　　　　　　hello data ...

【大数据实验】06：MapReduce操作

https://blog.youkuaiyun.com/m0_74834215

05-06

1773

MapReduce操作 OVERVIEWMapReduce操作实验环境一、WordCount单词计数1.实验内容2.实验原理3.实验步骤（1）启动Hadoop集群（2）准备数据文件（3）创建Map/Reduce项目（4）程序测试及运行二、MapReduce数据去重1.实验内容2.实验原理3.实验步骤（1）启动Hadoop集群（2）准备数据文件（3）创建Map/Reduce项目（4）程序测试及运行三、MapReduce数据排序1.实验内容2.实验原理3.实验步骤（1）启动Hadoop集群（2）准备数据文

精选资源

大数据实验5实验报告：MapReduce 初级编程实践

06-20

【MapReduce初级编程实践】是大数据处理中的一项基础任务，主要应用于大规模数据集的并行计算。在这个实验中，我们关注的是如何利用MapReduce来实现文件的合并与去重操作。MapReduce是一种分布式计算模型，由Google...

精选资源

大数据实验四-MapReduce编程实践

04-03

### 大数据实验四-MapReduce编程实践 #### 一、实验内容与目的 ##### 实验内容概述本次实验的主要内容是使用MapReduce框架来实现WordCount词频统计功能，即统计HDFS（Hadoop Distributed File System）系统中多个...

【大数据原理】实验五：MapReduce编程初级实践

everyone_dream的博客

03-24

1277

【大数据技术原理】实验五：MapReduce编程初级实践

精选资源

大数据技术基础实验报告-MapReduce编程.doc

08-21

在这个实验报告中，我们将探讨如何在Eclipse环境中设置和使用MapReduce编程。首先，为了在Eclipse上编写和运行MapReduce程序，我们需要安装`hadoop-eclipse-plugin`。这个插件允许开发者直接在IDE中开发、调试和...

MapReduce 编程实践

Michael是个半路程序员

03-25

1379

文章目录1. MapReduce 作业流程2. 实践2.1 启动 hadoop2.2 创建 java 项目参考书：《Hadoop大数据原理与应用》 1. MapReduce 作业流程 2. 实践 2.1 启动 hadoop start-dfs.sh start-yarn.sh mr-jobhistory-daemon.sh start historyserver # 第三条可以用下面的命令，上面的显示过期了，以后弃用 mapred --daemon start historyserver 2.2 创

MapReduce编程实践(Hadoop3.1.3)

不能将运气当成战略！

04-24

5175

需要说明的是，针对这两个小数据集样本编写的MapReduce词频统计程序，不作任何修改，就可以用来处理大规模数据集的词频统计。然后，点击界面底部的“Next>”按钮，进入下一步的设置。需要注意的是，如果要再次运行WordCount.jar，需要首先删除HDFS中的output目录，否则会报错。可以直接点击Eclipse工作界面上部的运行程序的快捷按钮，当把鼠标移动到该按钮上时，在弹出的菜单中选择。全部添加完毕以后，就可以点击界面右下角的“Finish”按钮，完成Java工程WordCount的创建。

MapReduce 编程实战

zhiwenganyong的博客

06-17

1882

MapReduce 采用了「分而治之」的思想。在分布式计算中，MapReduce 框架负责处理并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题，把处理过程高度抽象为两个函数：map，把一个任务分解成多个任务；reduce，将任务的处理结果汇总。MapReduce 处理的数据集（或任务）必须具备这样的特点：待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。在 Hadoop 中，每个 MapReduce 任务都被初始化为一个 Job，每个

实验六 MapReduce并行编程

weixin_42534356的博客

12-04

607

实验目的熟悉并掌握MapReudce并行编程框架的基本原理理解Shuffle过程掌握编写MapReduce主要组件与编程接口实验环境虚拟机环境 node01 node02 node03 node04 NameNode √ DataNode √ √ √ √ ResourceManager √ NodeManager √ √ √ √ ...

MapReduce编程实践-WordCount

q435201823的博客

02-09

424

Mapper package hadoop.mr.wordcount; import java.io.IOException; import org.apache.commons.lang3.StringUtils; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.ap...

分布式计算框架实验(三) MapReduce编程实践

小李独爱秋的博客

04-12

1103

MapReduce编程初级实践: 基本任务1：编程WordCount 进阶任务1：编程实现文件合并和去重操作进阶任务2：编程实现对输入文件的排序

大数据原理】实验五：MapReduce编程初级实践

最新发布

06-26

### MapReduce 编程初级实践指南 #### 实验目标 - 理解MapReduce的基本概念和工作原理。 - 掌握使用新旧Java API编写MapReduce程序的方法。 - 能够在Hadoop环境中运行简单的MapReduce任务，如WordCount。 #### 实验环境准备 1. **安装Hadoop**：确保已安装Hadoop，并配置好环境变量。可以使用伪分布式模式进行测试[^3]。 2. **启动Hadoop集群**： - 格式化文件系统：`$ bin/hdfs namenode -format` - 启动NameNode和DataNode守护进程：`$ sbin/start-dfs.sh` - 启动ResourceManager和NodeManager：`$ sbin/start-yarn.sh` #### 新旧Java API对比 1. **旧API (org.apache.hadoop.mapred)**： - 使用实现接口的方式编写Mapper和Reducer。 - 示例代码片段： ```java public class OldMapReduceExample { public static class MyMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> { // Mapper逻辑 } public static class MyReducer extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> { // Reducer逻辑 } } ``` 2. **新API (org.apache.hadoop.mapreduce)**： - 使用继承抽象基类的方式编写Mapper和Reducer。 - 示例代码片段： ```java public class NewMapReduceExample { public static class MyMapper extends Mapper<LongWritable, Text, Text, IntWritable> { // Mapper逻辑 } public static class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> { // Reducer逻辑 } } ``` #### WordCount 实验教程 1. **编写Mapper类**： - 输入键值对为`(LongWritable, Text)`，输出键值对为`(Text, IntWritable)`。 - 代码示例： ```java public static class TokenizerMapper extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String[] words = value.toString().split("\\s+"); for (String w : words) { word.set(w); context.write(word, one); } } } ``` 2. **编写Reducer类**： - 输入键值对为`(Text, Iterable<IntWritable>)`，输出键值对为`(Text, IntWritable)`。 - 代码示例： ```java public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> { private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } } ``` 3. **编写Driver类**： - 配置Job并设置Mapper、Reducer类。 - 代码示例： ```java public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "word count"); job.setJarByClass(WordCount.class); job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } ``` 4. **编译并打包**： - 使用Maven或Ant工具将代码编译并打包成JAR文件。 5. **运行MapReduce任务**： - 将输入文件上传到HDFS。 - 运行JAR文件：`hadoop jar your-jar-file.jar WordCount input-path output-path` 6. **查看结果**： - 使用HDFS命令查看输出目录中的结果文件：`hadoop fs -cat output-path/part-r-00000` #### 注意事项 - 在编写MapReduce程序时，注意处理异常和关闭资源。 - 确保输入和输出路径正确无误。 - 可以通过调整Hadoop配置文件来优化性能。

配置文件	mapred-site.xml	yarn-site.xml	hdfs-site.xml	core-site.xml
jar包	hadoop_jars（在实验eclipse中已创建好）