自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Hadoop MapReduce开发--两个输入数据关联优化方案(增加排序功能)

两表关联后,并对某字段进行排序 测试数据: address.txt #地址ID    地址名称 1    北京 2    上海 3    广州 employee.txt #人员ID    人员名称    地址ID 1    张三    1 2    李四    2 3    王五    1 4    赵六    3 5    马七    3   首先,bean实体类:User ...

2019-01-29 10:31:22 345

原创 Hadoop MapReduce开发--两个输入数据关联优化方案

将人员的地址ID完善成为地址名称。输出格式:人员ID,姓名,地址 测试数据: address.txt #地址ID    地址名称 1    北京 2    上海 3    广州 employee.txt #人员ID    人员名称    地址ID 1    张三    1 2    李四    2 3    王五    1 4    赵六    3 5    马七    3 U...

2019-01-17 10:10:21 270

转载 Hadoop中 MapReduce中InputSplit的分析

前言 MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。   什么是InputSplit        InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了<文件名,开始位置,长度,位于哪些主机>等信息。在MapTa...

2019-01-13 13:19:24 891

转载 HDFS中Block size的默认大小

关于block size的默认大小,有的说是64 MB,有的说是128 MB。 那么具体是从哪个版本由64 MB变成128 MB的?有的说是Hadoop 1.X版本是64MB,2.X版本是128MB,有的说Apache Hadoop 是64MB,Clouder Hadoop是128MB。 为了确认上述问题的答案,从Hadoop的官网上看了各个版本的说明文档中关于 Data Blocks 的说明...

2019-01-12 15:11:46 12113

原创 Hadoop MapReduce开发--两个输入数据关联

测试数据: dept.txt #deptno    dname    loc 30    sales    chicago 20    research    dallas 10    accounting    newyork employee.txt #empno    ename    job            mgr        hiredate    sal     ...

2019-01-12 14:58:45 412

原创 Hadoop MapReduce开发--对输入日志数据进行统计

该案例对输入日志数据进行统计: 要求:区别统计GET和POST URL访问量 测试数据: 127.0.0.1 - - [03/Jul/2014:23:36:38 +0800] "GET /course/detail/3.htm HTTP/1.0" 200 38435 0.038 182.131.89.195 - - [03/Jul/2014:23:37:43 +0800] "GET / H...

2019-01-12 12:41:00 796

原创 Hadoop MapReduce开发--取TopN数据

测试数据: file1.txt 1,9819,100,121 2,8918,2000,111 3,2813,1234,22 4,9100,10,1101 5,3210,490,111 6,1298,28,1211 7,1010,281,90 8,1818,9000,20 file2.txt 100,3333,10,100 101,9321,1000,293 102,3881,701,...

2019-01-12 12:36:27 692

原创 Hadoop MapReduce开发--最小最大值

测试数据: file1.txt 102 10 39 109 200 11 2 90 28 file2.txt 5 2 30 838 10005 mapper代码: import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop...

2019-01-11 14:44:48 552

原创 Hadoop MapReduce开发--平均值

测试数据: china.txt 张三    78 李四    89 王五    96 赵六    67 english.txt 张三    80 李四    82 王五    84 赵六    86 math.txt 张三    88 李四    99 王五    66 赵六    77 mapper代码: import org.apache.hadoop.io.In...

2019-01-11 14:08:47 274

原创 Hadoop MapReduce开发--升序排序数据,且数据不去重

测试数据: file1.txt 2 32 654 32 15 756 65223 file2.txt 5956 22 650 92 file3.txt 26 54 6 Mapper代码: import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import o...

2019-01-11 10:55:57 686 3

原创 Hadoop MapReduce开发--数据去重

环境 hadoop-2.9.1 windows7 idea15 示例数据 file1.txt 2012-3-1 a 2012-3-2 b 2012-3-3 c 2012-3-4 d 2012-3-5 a 2012-3-6 b 2012-3-7 c 2012-3-3 c file2.txt 2012-3-1 b 2012-3-2 a 2012-3-3 b 2012-3-4 d 2012-3-...

2018-10-10 10:17:32 397

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除