
Hadoop
BLUcoding
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop_MapReduce_Join示例
Hadoop_MapReduce_Join示例 输入文件1: D:\data\join\emp.txt 1001 1 zhangsan 1002 2 lisi 1003 3 tom 1004 3 amy 输入文件2: D:\data\join\dept.txt 1 销售部 2 运营部 3 研发部 EmpMapper package com.blu.join; import java.io.IOException; import org.apache.hadoop.io.IntWritable; im原创 2020-05-14 16:54:05 · 43371 阅读 · 0 评论 -
Hadoop_MapReduce_数据去重示例
Hadoop_MapReduce_数据去重 示例:删除输入文件中的重复数据,重复的数据只保留一个 输入文件1:D:\data\distinct\file1.txt zhangsan 500 450 jan lisi 200 150 jan jerry 200 150 feb amy 200 150 feb 输入文件2:D:\data\distinct\file2.txt zhangsan 500 450 jan lisi 200 150 jan jack 150 160 jan tom 500 500 f原创 2020-05-13 16:46:44 · 119332 阅读 · 0 评论 -
Hadoop_MapReduce_topN示例
Hadoop_MapReduce_topN示例 倒序输出测试数据中的5个最大的数字 测试文件1:D:\data\topN\topN.txt 3 9 3 7 5 6 2 85 4 5 101 1 6 1 1 0 2 82 5 90 测试文件2:D:\data\topN\topN2.txt 3 93 3 7 100 4 5 1 6 10 1 80 1 99 TopNMapper package com.blu.topN; import java.io.IOException; import java.原创 2020-05-13 15:32:55 · 43385 阅读 · 0 评论 -
Hadoop_MapReduce_求最大值和最小值
Hadoop_MapReduce_求最大值和最小值 原始数据:D:\data\nums.txt 需求:找出最大和最小的数字 3 4 1 10 15 22 8 hadoop 5K 62 1 MaxMin package com.blu.maxmin; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.WritableCompara原创 2020-05-12 19:09:34 · 43414 阅读 · 0 评论 -
Hadoop_数据清洗示例
Hadoop_数据清洗 示例(去除空行、开头为空格的数据): 原始数据:D:\data\testdata.txt zhangsan 500 450 jan zhangsan 550 450 feb lisi 210 150 jan lisi 200 150 feb zhangsan 400 150 march zhangsan 600 500 april lisi 190 150 april 800 100 jan BLU 2000 200 feb lisi 110 10 may原创 2020-05-12 16:56:14 · 43105 阅读 · 0 评论 -
Hadoop_MapReduce_OutputFormat工作原理
Hadoop_MapReduce_OutputFormat工作原理 OutputFormat 的作用: 校验job中指定输出路径是否存在 将结果写入输出文件 OutputFormat是一个抽象类,有以下几个子类: DBOutputFormat FileOutputFormat FilterOutputFormat NullOutputFormat FileOutputFormat有以下几个...原创 2020-05-04 22:13:28 · 44566 阅读 · 0 评论 -
Hadoop_MapReduce_Shuffle工作原理
Hadoop_MapReduce_Shuffle工作原理 Shuffle 是连接 Mapper 和 Reducer 之间的桥梁,Mapper的输出结果必须经过Shuffle环节才能传递给Reducer Shuffle分为Map阶段的数据准备和Reducer阶段的数据拷贝。 Shuffle核心机制:数据分区、排序、合并。 在 mapTask 阶段,通过代码:context.write(key, iw...原创 2020-04-28 21:15:56 · 37256 阅读 · 0 评论 -
Hadoop_MapReduce_InputFormat工作原理
Hadoop_MapReduce工作原理 六个阶段: Input 文件输入 Splitting 分片 Mapping Shuffling Reducing Final result mapper的输入数据为KV对形式,每一个KV对都会调用map()方法,输出数据也是KV对形式。 mapper从context中获得输入数据,将处理后的结果写入context中(context.write(text...原创 2020-04-26 18:08:34 · 44711 阅读 · 0 评论 -
Hadoop_MapReduce压缩案例
Hadoop_MapReduce压缩案例 在map输出端压缩 修改 Hadoop_WordCount单词统计 工程 只需要修改 MyWordCount 的main方法即可: package com.blu.mywordcount; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; im...原创 2020-04-24 13:22:53 · 37687 阅读 · 0 评论 -
Hadoop压缩和解压缩文件
Hadoop压缩和解压缩文件 修改Hadoop_WordCount单词统计工程 创建CompressionTest类 package com.blu.compress; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import org.apache.hadoop....原创 2020-04-24 12:41:41 · 42964 阅读 · 0 评论 -
Hadoop序列化
序列化概念 序列化:将内存中的对象装换成字节序列,以便于持久化存储到磁盘中以及网络传输。 反序列化:将收到的字节序列(或者其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。 为什么要序列化? 一般对象只存储在本地内存,允许本地进程调用。而在集群环境下,需要在不同的进程调用对象,这就需要将对象通过网络传输到另外的主机上。但对象无法直接通过网络传输,只有通过序列化处理之后才能通过网络传输...原创 2020-04-23 22:18:10 · 45476 阅读 · 0 评论 -
Hadoop_WordCount单词统计
Hadoop_WordCount单词统计 创建hadoop02工程 pom文件 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/...原创 2020-04-23 09:36:42 · 47744 阅读 · 0 评论 -
Hadoop_HDFS文件操作
Hadoop_HDFS文件操作 新建hadoop_hdfs工程 pom.xml: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/P...原创 2020-04-23 09:05:08 · 44669 阅读 · 0 评论