hadoop中MapReduce计算省份出现的次数

最新推荐文章于 2024-07-08 22:54:08 发布

原创最新推荐文章于 2024-07-08 22:54:08 发布 · 537 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop

hadoop大数据中MapReduce 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一种处理日志文件中省份数据的方法，通过MapReduce技术实现数据汇总，并讨论了如何将处理后的数据以扇形图等形式进行可视化展示。

省份提取
1、LogMapper.java
在这里插入图片描述

2、LogReducer.java
在这里插入图片描述

重写reduce方法，
进入到reduce的数据是（山东省，【1,1,1,1,】，（台湾省，【1,1,1,1】））
其中values就是数组
在这里插入图片描述

将取到的值放到sum上
在这里插入图片描述

通过intWritable改成int类型
3、每一个key_value对进行一次
4、开发LogApp.java
main方法
在这里插入图片描述

5、当然也可以放到数据库中，以扇形图等的形式进行展示

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Nicole-小碎步

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

[Hadoop]三、Hadoop-MapReduce

weixin_44428807的博客

05-12

442

1. MapReduce概述 2. Hadoop序列化 3. Mapeduce框架原理 4. Hadoop数据压缩 5. 常见错误及解决方案

hadoop之mapreduce详解

weixin_44695793的博客

08-22

1260

今天，本姑娘和大家聊一聊mapreduce。吐血整理，各位小板凳坐好啊。如有写错的话，也请多多指正。首先我们了解一下什么是MapReduce。主要是由两个阶段组成。Map和Reduce。用户只需要编写map()和reduce()两个函数。即可完成简单分布式程序计算。流程介绍： ①②③InputFormat InputFormat接口决定了输入文件如何被Hadoop分块。InputFormat能够从一个job中得到split集合。然后再为这个split提供一个何时的RecordReader（getRe

2 条评论您还未登录，请先登录后发表或查看评论

2 条评论

qq_47640282 2021.10.04
想拥有完整代码

Cdf（人名） 2021.07.17
赞~

hadoop基于省份数据统计例子

GoodMorning_1992的博客

08-04

238

package com.imooc.bigdata.hadoop.project.mrv2; import com.imooc.bigdata.hadoop.project.utils.LogParser; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongW

Hadoop实例学习(四)Mapreduce词频统计

秘密的博客

10-22

4202

目录创建maven项目pom.xml添加依赖添加log文件编写类编写Mapper类编写Reducer类编写Driver驱动!!!不能直接运行因为还没设置输入和输出路径!会遇见的问题常见错误产生原因及解决方法创建maven项目 pom.xml添加依赖 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <ar

Hadoop学习（十一）MapReduce的案列（对一个用户流量的使用量作分析）以及小文件的优化方式。

会写Bug的攻城狮

01-23

576

一，mapper类 package FlowCountTestMapper; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; /** * @aut...

利用Hadoop 根据IP地址进行地域统计

weixin_34295316的博客

03-23

328

2019独角兽企业重金招聘Python工程师标准>>> ...

超详细的MapReduce WordCount 统计微博评论最多的用户

qq_34575632的博客

07-22

505

超详细的MapReduce WordCount 统计微博评论最多的用户使用fastjson解析每一行的json List<Map<String,Object>> parses = (List<Map<String,Object>>) JSON.parse(value.toString()); 提取userId for (Map<String, Object> pars : parses) { String new_val

(超详细)大数据Hadoop之MapReduce组件

小赵的呢

12-23

2907

一、MapReduce 简介 1.1 MapReduce的概述在Hadoop生态圈中，MapReduce属于核心，负责进行分布式计算。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 Hadoop 集群上。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TTUyvkEh-1640235355989)(C:\Users\86157\Desktop\javatest\大数据开发\Hadoop框架\Hadoo

Hadoop（MapReduce）

cookie的博客

07-08

2168

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

WINDOWS本地运行Hadoop的mapreduce程序配置

weixin_44942281的博客

07-08

760

1、下载hadoo安装到windows本地。我这边是下载安装到D盘， D:\hadoop-3.0.0 2、解压之后进行设置环境变量。新建 HADOOP_HOME 变量值 D:\hadoop-3.0.0 Path中增加 %HADOOP_HOME%\bin %HADOOP_HOME%\sbin 3、案例解析案列背景：将统计结果按照手机归属地不同省份输出到不同文件中（分区） //输入数据 1 13736230513 192.196.100.1 www.atguigu.com 2481

使用MapReduce统计一篇微博数据的点赞次数，并且输出前五个最高的点赞数量。

一曲无痕奈何

10-01

3086

一个MapReduce写了一个下午，调试运行了不下20次了，我靠，真是闹心，差点整崩溃，在最绝望的时候给出了最好的答案。需求：使用MapReduce统计一篇微博数据的点赞次数，并且输出前五个最高的点赞数量，输出id和对应的博客内容。数据介绍：随着移动互联网、物联网等新技术的迅速发展，人类进入数据时代。大数据带来的信息风暴正深刻改变我们的生活、工作和思维方式，对网络舆情管理也带来深刻...

118.Spark大型电商项目-广告点击流量实时统计-计算每天各省的top3热门广告

someby的博客

04-04

731

本篇文章记录广告点击流量实时统计-计算每天各省的top3热门广告。代码 domain AdProvinceTop3.java package graduation.java.domain; /** * FileName: AdProvinceTop3 * Author: hadoop * Email: 3165845957@qq.com * Date: 1...

广告数据集mapreduce实验（词频统计）

weixin_52728894的博客

01-12

463

hadoop实验mapreduce词频统计，对广告数据集的购买者年龄进行词频统计，获得购买者年龄分布。

MR | 案例三：统计流量数据并自定义分区按总流量排序

qq_44249833的博客

07-29

790

案例要求统计每个手机的总流量，按照手机号前三位进行分区，各个分区内按照总流量降序排序输入文件示例 1 13736230513 192.196.100.1 www.baidu.com 2481 24681 200 2 13846544121 192.196.100.2 264 0 200 3 13956435636 192.196.100.3 132 1512 200 4 13966251146 192.168.100.1 240 0 404 5 18271595951 192.168.100.2 www

MapReduce编程入门-日志访问次数统计任务

Jop_qq的博客

05-14

7814

搭建IDE开发环境，创建MapReduce工程MemberCount 1.将插件hadoop-eclipse-plugin-2.6.4.jar复制到eclipse的dropins目录下 2.菜单选择Windowns-Perspective-Open Perspective-Other,在对话框中选中MapReduce,点击

Task not serializable

大数据

01-04

2397

C:\Java\jdk1.8.0_191\bin\java.exe "-javaagent:D:\IntelliJ IDEA 2018.2.4\lib\idea_rt.jar=55960:D:\IntelliJ IDEA 2018.2.4\bin" -Dfile.encoding=UTF-8 -classpath C:\Java\jdk1.8.0_191\jre\lib\charsets.jar;...

MapReduce 之流量汇总案例四+不同省份输出文件内部排序（部分排序）

now

11-26

357

1）需求要求每个省份手机号输出的文件中按照总流量内部排序。 2）分析：基于需求3，增加自定义分区类即可。 3）案例实操（1）增加自定义分区类 package com.lzz.mapreduce.flowsort; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; public class FlowSortProvincePartitioner extends Part

linux航班信息处理mapreduce,linux平台：Eclipse（+IBMmapreduce tool）下运行hadoop

weixin_36459720的博客

05-11

187

自己乱搞，出了点问题，弄来弄去，总算弄OK了主要就是版本的问题我的开发环境是：Ubuntu，如果安装的版本低，系统更新下1.安装eclipse版本是eclipse3.3.X其他版本会不兼容下好eclipse-java-3.3-linux.tar.gz文件后sudo cp **.tar.gz /usr/lib解压缩sudo -xvf ****.tar.gz2.获取mapreduce tool plu...

开发MapReduce程序实验2

magina507的博客

05-30

2183

一、实验题目开发MapReduce程序二、实验要求 WeatherData应用程序是为分析文本文件、获得明确结果而编写的计算程序。在文本分析过程中，程序分别对（数）值和温度做了分类和比较。本次实验练习，我们将编写MapReduce程序，目的是找出weather.txt文本文件中保存的最高温度的记录。三、操作步骤 1.打开Eclipse，创建一个Java Project，

hadoop中reduce任务数量由什么影响

最新发布

11-22

<think> 嗯，用户这次问的是Hadoop中影响reduce任务数量的因素。这个问题其实在之前的讨论中已经有所涉及，但用户希望更系统地了解具体影响因素。从对话历史看，用户对Hadoop的分区机制已经有基本理解，特别是关于分区函数和reduce任务数量的关系。用户引用的资料[2]特别重要，它用生活化的例子（男女分类、中国省份）生动说明了分区逻辑对reduce任务的决定性影响。这里需要重点强调三点：第一，用户设置的numReduceTasks参数只是期望值，实际生效的reduce数量还取决于分区函数的逻辑。比如当分区函数只输出两种分区（如男女分类）时，即使设置numReduceTasks=3也只会启动两个reduce任务（第三个始终空闲）。这个案例在引用[2]中解释得很清楚。第二，数据特征直接影响实际reduce数量。引用[4]提到输入数据大小和文件数量会影响map任务，但reduce任务更依赖数据分布。比如使用HashPartitioner时，如果某个key的数据量极大（热点key），可能导致该reduce任务负载远高于其他任务。第三，集群资源是硬约束。引用[3]指出reduce任务分配完全取决于map任务完成后可用的计算节点数。即使分区函数输出了10个分区，如果当时只有5个空闲节点，就只会启动5个reduce任务并行处理。用户可能还隐含了一个疑问：为什么map任务数量由输入数据决定（如block数量），而reduce数量却如此多变？这需要解释MapReduce设计哲学——map阶段追求数据本地化，reduce阶段追求负载均衡。所以reduce数量设置更灵活，但也更复杂。最后补充一点工程实践：引用[1]展示的设置方式（conf.setInt）只是基础方法，实际生产环境常根据数据量动态计算reduce数量，比如按HDFS文件大小比例设置。这部分虽然没在引用中体现，但属于常见优化手段。 </think> 在Hadoop中，**Reduce任务的实际数量由多个因素共同决定**，核心影响因素如下： --- ### 一、显式配置参数（用户设置） 1. **`mapreduce.job.reduces` 属性** 用户可通过代码或配置文件显式指定期望的Reduce任务数量： ```java Configuration conf = new Configuration(); conf.setInt("mapreduce.job.reduces", 5); // 设置期望的Reduce数量 ``` * **作用**：此值为框架提供参考，但非绝对约束[^1][^2]。 --- ### 二、分区机制（核心决定因素） 1. **分区函数（Partitioner）逻辑** Reduce任务数量最终由 **实际生成的分区数（Partition）** 决定，而分区数取决于： - **分区函数实现**： - **默认分区器（HashPartitioner）**：分区数等于用户设置的`mapreduce.job.reduces`值（需满足条件③）。 - **自定义分区器（Custom Partitioner）**：分区数由`getPartition()`方法逻辑决定。例如： ```java public class CustomPartitioner extends Partitioner<Key, Value> { @Override public int getPartition(Key key, Value value, int numPartitions) { // 实际分区数取决于此方法的返回值范围 return key.hashCode() % numPartitions; } } ``` - **数据Key的分布**：相同Key的数据必须被分配到同一分区[^2]。 2. **分区数约束规则** 最终Reduce任务数 = **实际生效分区数**，且满足： - **上限**：不超过用户设置的`mapreduce.job.reduces`值。 - **下限**：至少为1（除非显式设为0，表示无Reduce阶段）。 - **特殊场景**： - 若分区函数仅输出2种分区（如按性别分区），即使设置`reduces=3`，也**只有2个Reduce任务运行**（第三个空闲）[^2]。 - 若设置`reduces=1`，则强制只有1个Reduce任务运行[^2]。 --- ### 三、集群资源与调度 1. **资源可用性** - Reduce任务启动依赖空闲的计算资源（CPU、内存）。 - 若集群资源不足，实际运行的Reduce任务数可能**低于分区数**（任务排队等待资源）[^3]。 2. **任务调度策略** Hadoop调度器（如YARN）根据资源池余量动态分配Reduce任务，可能分批启动[^3]。 --- ### 四、输入数据与Shuffle机制 1. **Map任务完成状态** Reduce任务需等待所有Map任务完成才能启动（因依赖Map输出的中间数据）[^3]。 2. **Shuffle数据量** 若中间数据量极小，框架可能合并分区以减少Reduce任务数（需符合分区函数约束）。 --- ### 五、配置参数冲突 1. **`mapreduce.job.reduces` 与分区函数冲突** ```java job.setNumReduceTasks(10); // 期望10个Reduce job.setPartitionerClass(CustomPartitioner.class); // 实际分区函数仅生成5个分区 ``` **结果**：仅启动5个Reduce任务（分区数决定上限）[^2]。 --- ### 总结：Reduce任务数量公式 $$ \text{实际Reduce数} = \min \left( \begin{array}{c} \text{用户设置值} \\ \text{分区函数生成的分区数} \\ \text{集群可用资源上限} \end{array} \right) $$ | 影响因素 | 是否用户可控 | 示例说明 | |-------------------------|--------------|------------------------------| | `mapreduce.job.reduces` | 是 | 设置期望值（可能不生效）[^1] | | 分区函数逻辑 | 是（自定义） | 实现`getPartition()`返回值 | | 集群资源 | 否 | 资源不足时任务排队[^3] | | 输入数据Key分布 | 否 | 热点Key导致分区倾斜 | > **关键结论**：**分区函数是Reduce任务数量的决定性因素**，用户设置值仅是建议上限[^2][^4]。