fengzhif0001-优快云博客

原创 Hadoop MapReduce开发--两个输入数据关联优化方案（增加排序功能）

两表关联后，并对某字段进行排序测试数据： address.txt #地址ID 地址名称 1 北京 2 上海 3 广州 employee.txt #人员ID 人员名称地址ID 1 张三 1 2 李四 2 3 王五 1 4 赵六 3 5 马七 3 首先，bean实体类：User ...

2019-01-29 10:31:22 345

原创 Hadoop MapReduce开发--两个输入数据关联优化方案

将人员的地址ID完善成为地址名称。输出格式：人员ID，姓名，地址测试数据： address.txt #地址ID 地址名称 1 北京 2 上海 3 广州 employee.txt #人员ID 人员名称地址ID 1 张三 1 2 李四 2 3 王五 1 4 赵六 3 5 马七 3 U...

2019-01-17 10:10:21 270

转载 Hadoop中 MapReduce中InputSplit的分析

前言 MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。什么是InputSplit InputSplit是指分片，在MapReduce当中作业中，作为map task最小输入单位。分片是基于文件基础上出来的而来的概念，通俗的理解一个文件可以切分为多少个片段，每个片段包括了<文件名，开始位置，长度，位于哪些主机>等信息。在MapTa...

2019-01-13 13:19:24 891

转载 HDFS中Block size的默认大小

关于block size的默认大小，有的说是64 MB，有的说是128 MB。那么具体是从哪个版本由64 MB变成128 MB的？有的说是Hadoop 1.X版本是64MB，2.X版本是128MB，有的说Apache Hadoop 是64MB，Clouder Hadoop是128MB。为了确认上述问题的答案，从Hadoop的官网上看了各个版本的说明文档中关于 Data Blocks 的说明...

2019-01-12 15:11:46 12113

原创 Hadoop MapReduce开发--两个输入数据关联

测试数据： dept.txt #deptno dname loc 30 sales chicago 20 research dallas 10 accounting newyork employee.txt #empno ename job mgr hiredate sal ...

2019-01-12 14:58:45 412

原创 Hadoop MapReduce开发--对输入日志数据进行统计

该案例对输入日志数据进行统计：要求：区别统计GET和POST URL访问量测试数据： 127.0.0.1 - - [03/Jul/2014:23:36:38 +0800] "GET /course/detail/3.htm HTTP/1.0" 200 38435 0.038 182.131.89.195 - - [03/Jul/2014:23:37:43 +0800] "GET / H...

2019-01-12 12:41:00 796

原创 Hadoop MapReduce开发--取TopN数据

测试数据： file1.txt 1,9819,100,121 2,8918,2000,111 3,2813,1234,22 4,9100,10,1101 5,3210,490,111 6,1298,28,1211 7,1010,281,90 8,1818,9000,20 file2.txt 100,3333,10,100 101,9321,1000,293 102,3881,701,...

2019-01-12 12:36:27 692

原创 Hadoop MapReduce开发--最小最大值

测试数据： file1.txt 102 10 39 109 200 11 2 90 28 file2.txt 5 2 30 838 10005 mapper代码： import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop...

2019-01-11 14:44:48 552

原创 Hadoop MapReduce开发--平均值

测试数据： china.txt 张三 78 李四 89 王五 96 赵六 67 english.txt 张三 80 李四 82 王五 84 赵六 86 math.txt 张三 88 李四 99 王五 66 赵六 77 mapper代码： import org.apache.hadoop.io.In...

2019-01-11 14:08:47 274

原创 Hadoop MapReduce开发--升序排序数据，且数据不去重

测试数据： file1.txt 2 32 654 32 15 756 65223 file2.txt 5956 22 650 92 file3.txt 26 54 6 Mapper代码： import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import o...

2019-01-11 10:55:57 686 3

原创 Hadoop MapReduce开发--数据去重

环境 hadoop-2.9.1 windows7 idea15 示例数据 file1.txt 2012-3-1 a 2012-3-2 b 2012-3-3 c 2012-3-4 d 2012-3-5 a 2012-3-6 b 2012-3-7 c 2012-3-3 c file2.txt 2012-3-1 b 2012-3-2 a 2012-3-3 b 2012-3-4 d 2012-3-...

2018-10-10 10:17:32 397

冯大叔的博客