mapreduces分区

最新推荐文章于 2024-11-11 16:44:35 发布

16:27

最新推荐文章于 2024-11-11 16:44:35 发布

阅读量115

点赞数

分类专栏： hadoop 文章标签： hadoop java mapreduce 大数据

本文链接：https://blog.youkuaiyun.com/qq_48773627/article/details/115771558

版权

hadoop 专栏收录该内容

5 篇文章

订阅专栏

图解

在这里插入图片描述

worldcount.txt 300M的单词文件分成3个块，map类把单词分开固定为1，redueceTask把大于等于5个单词的放一起，其他的放一起，最后算到各自的分区文件中。

Java代码

编写PartitionerOwn类继承Partitioner进行分区，大于等于5的返回值为0，其他的返回值为1，如果有很多个分区可以在加返回值2、3、4。详情查看Partitioner和HashPartitioner，在idea ctrl+n搜索他们两个查看源代码。

具体PartitionerOwn代码
rg.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class PartitionerOwn extends Partitioner<Text, LongWritable> {

@Override

/*
text:表示k2
longWritable：表示v2
i:reduce的个数
 */

public int getPartition(Text text, LongWritable longWritable, int i) {

    //如果单词大于等于5的进入一个分区  --->  第一个reduceTask  --->reduce编号为0
    if (text.toString().length() >=5 ){
        return 0;
    }else {

        //如果单词小于5的进入一个分区  --->  第二个reduceTask  --->reduce编号为1

        return 1;
    }

}

}

去job里增加
//设置我们的分区类

job.setJarByClass(PartitionerOwn.class);

//设置reduce的个数

job.setNumReduceTasks(2);

结果

看分成两个文件了
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

16:27

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大数据学习之路19-让map按照域名分区，自定义partitioner的使用

爱米酱的博客

08-17

267

今天我们想要做的就是把域名相同的分在同一个区。可是如果按照我们以前默认的分区规则是达不到我们的要求的。默认的分区规则是：key.hashcode()%reduceworker数，这个默认的分区规则的所属类为HashPartitioner 以下为HashPartitioner的源码： package org.apache.hadoop.mapreduce.lib.partition; i...

MapReduce实例2-数据分区

冥更的博客

02-07

380

需求：将数据按照某一列分为两类数据格式： [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Btt73zcN-1581055525555)(C:\Users\acer\Desktop\大数据系列笔记\7\1581048781109.png)] Step 1. 定义 Mapper 这个 Mapper 程序不做任何逻辑, 也不对 Key-Value 做任何改变, 只是接收...

参与评论您还未登录，请先登录后发表或查看评论

MapReduce05——分区

yeyu_xing的博客

02-21

504

1、有words.txt文件内容如下，其中以制表符分割，需求：利用mapreduce按照性别分区 Smith male Alice female Tony male Doris female 2、分析 map阶段：（1）、mapreduce逐行读取文件，得到每行的值（2）、以制表符分割后，姓名为key，性别为value输出 reduce阶段：（1）、直接输出即可自定义分区类： package com.qujiuge.partition; import org.apache.hadoop.io.T

MapReduce入门 ( 二 )

QuietHRH的博客

11-17

255

MapReduce入门( 二 ) mr编程中, 利用好key的特性排序默认为字典序分区默认为key的哈希值对reducertask数量取模分组默认为key相同的为一组在mr编程中，可以把上一个mr的输出目录直接作为下一个mr的输入 mr程序能够自动识别里面什么是检验性文件什么是成功标识文件什么是真正的数据文件 mr默认分区源码: 类HashPartition mr...

hashpartitioner-Spark分区计算器

大数据星球-浪尖

07-24

1176

首先，我们回顾的知识点是RDD的五大特性:1，一系列的分区。2，一个函数作用于分区上。3，RDD之间有一系列的依赖。4，分区器。5，最佳位置。Spark属于链式计算，rd...

使用Hadoop MapReduce实现各省学生总分降序排序，根据省份分出输出到不同文件

lhyandlwl的博客

06-12

683

通过以上步骤，我们实现了一个Hadoop MapReduce作业来对各省的学生总分进行降序排序，并将结果写入不同的文件中。

《Hive用户指南》-HiveSQL转化为MapReduce任务

机器学习，大数据

04-08

1982

文章目录1. hive.fetch.task.conversion参数2. 转化为MR任务的SQL2.1 JOIN2.2 GROUP BY2.3 DISTINCTReference Hive是Facebook实现的一个开源的数据仓库工具—— Hive基于Hadoop实现，底层数据存放在HDFS中，计算（查询）使用MapReduce任务实现将结构化的数据文件映射为数据库表，并提供HQL查询功能，...

MapReduce编程实例——词频统计实现

weixin_64272885的博客

12-14

3846

MapReduce编程实例——词频统计实现

初识Spark 1.6.0

白飞飞_Alan

03-03

737

1、 Spark发展背景 Spark由加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)以Matei为主的小团队使用Scala语言所开发，后期成立spark商业公司databricks，CEOAli，CTO Matei,后期愿景是实现databrickscloud。Spark是新一代基于内存迭代计算的、开源的、分布式的、并行的计算框架，抛去繁琐的

深入理解 Hadoop - MapReduce 分布式计算框架

最新发布

zchRain的博客

11-11

1028

Hadoop 是一个开源的分布式计算平台，由 Apache 软件基金会开发和维护。MapReduce 是 Hadoop 的核心组件之一，它提供了一种简单而强大的编程模型，用于在大规模集群上并行处理海量数据。

分区——合理设置Map及Reduce数、复杂文件增加Map数

qq_61645895的博客

02-11

2426

合理设置Map及Reduce数如果MapReduce数据量过少，则单个的处理数据量过大；如果MapReduce数据量过多，则抢资源。

mapreduce 分区

weixin_35752122的博客

01-04

483

MapReduce 是一种编程模型，用于对大型数据集进行并行计算。MapReduce 程序包含两个阶段：Map 阶段和 Reduce 阶段。 Map 阶段将输入数据集分成若干个“分片”，然后将每个分片传递给一个 Map 函数。Map 函数处理输入分片，并生成中间键值对。 Reduce 阶段接收 Map 函数的输出，将所有具有相同键的值分组在一起，然后将这些值传递给一个 Reduce 函数。Redu...

MapReduce的运作详解之分区

阳哥的博客

08-06

3925

分区的概念： Map阶段处理的数据，在向环形缓冲区写的时候是以分区的方式写的一般情况下，MR程序分区数有多少 reduceTask数量就应该有多少，一个分区的数据一个reduceTask去处理，reduceTask处理完成之后都会生成一个结果文件 ...

MapReduce的分区功能

枣泥馅的博客

04-14

1484

MapReduce的分区功能自我理解其实它最终的功能是为了计算出来的数据分区存储，方便日后查询更看我们今天一个部门值来进行分区， MapReduce分区是从Map输出的K2阶段进入到Reducer时候在聚合相同key2的时候就开始进入分区相同的Key2我们会把它放入到一个分区中，Reducer的主要作用为了聚合相同的Key2 要想做分区我们需要写出分区规则让reduce进行分区，需要实现Par...

MapReduce三种分区方法

qq_42444621的博客

06-16

4084

何时分区当map函数输出数据到循环内存缓冲区，数据达到循环内存缓冲区的阀值时，会将数据溢写到文件中，在写入文件之前会对数据进行分区分区分类及如何实现第一种：默认分区系统自动调用HashPartitioner类进行分区，原码如下：该类通过继承Partitioner类实现分区，将key的哈希值与integer的最大值做&运算，并%1来设置分区第二种：自定义分区第三种：全...

MapReduce功能实现八---分区(Partition)

小强签名设计的博客

08-02

4041

[hadoop@h71 q1]$ vi aa.txt aa 1 2 bb 2 22 cc 11 dd 1 ee 99 99 999 ff 12 23 123 注意：这里的分隔符是/t（Tab键）而不是空格 [hadoop@h71 q1]$ hadoop fs -put aa.txt /input java代码： import org.apache.hadoop.con

Hadoop3 - MapReduce 分区介绍及自定义分区

小毕超博客

10-23

1322

当MapReduce中有多个reducetask执行的时候，此时maptask的输出到底给哪个reducetask来处理呢？其中有个分区规则，默认情况下采用也就是根据key % 分区数确定到底是哪个分区：那如果默认的无法满足我们，也是可以进行自定义分区规则的，只需要继承类，然后在方法中返回具体的分区编号即可。下面还是使用上篇文章的案例，如果我们对五个州的数据统计放在一起，其他的州放在一起。static {} }修改驱动类，设置为6，

mapPartitions

AStar的博客

02-21

6786

rdd的mapPartitions是map的一个变种，它们都可进行分区的并行处理。两者的主要区别是调用的粒度不一样：map的输入变换函数是应用于RDD中每个元素，而mapPartitions的输入函数是应用于每个分区。假设一个rdd有10个元素，分成3个分区。如果使用map方法，map中的输入函数会被调用10次；而使用mapPartitions方法的话，其输入函数会只会被调

mapPartition方法与map方法的区别(转载)

微电子学与固体电子学-俞驰

08-01

571

算子作用 map 应用于RDD中每个元素 mapPartitions 应用于每个分区代码如下: //生成10个元素3个分区的rdd a，元素值为1~10的整数（1 2 3 4 5 6 7 8 9 10），sc为SparkContext对象 val a = sc.parallelize(1 to 10, 3) //定义两个输入变换函数，它们的作用均是将rdd a中的元素值翻倍 //map的输入函数，其参数e为rdd元素值 ...

VMware虚拟机硬盘分区指南

"VMware虚拟机磁盘分区教程" 在VMware Workstation中，为虚拟机的硬盘进行分区是安装操作系统前的重要步骤。本教程详细介绍了如何在VMware虚拟机中进行磁盘分区，主要涉及以下知识点： 1. **新建虚拟机**：新建...