自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 01_Hadoop入门

Hadoop入门1.Hadoop概述1.1大数据概念大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决的问题:海量数据的存储和计算1.2大数据特点Volume (大量)Velocity (高速)Variety (多样)Value (低...

2020-04-08 18:47:32 163

原创 mapreduce连接_mapJoin

MapJoin1.作用:reduceJoin在进行数据连接时效率低,用mapJoin来提升数据连接的效率。在map端进行不同数据源的数据连接。2.DistributeCache:若进行大数据与小数据的连接,可以将小数据文件复制到所有mapper上,进行map端的连接。在driver中共享cacheFile:job.addCacheFile(new URI("cacheFile"));...

2020-04-08 13:43:23 314

原创 mapreduce连接_外连接、左外连接、右外连接

外连接、左外连接、右外连接本例实现问题2:外连接、左外连接、右外连接问题描述:1、 任意多个数据源的内连接输入有两个文件,一个名为factory的输入文件包含描述工厂名和其对应地址ID的表,另一个名为address的输入文件包含描述地址名和其ID的表格。请编写一个程序输出工厂名和其对应地址的名字。输入:输入有两个文件,第一个描述了工厂名和对应地址的ID,第二个输入文件描述了地址名和其I...

2019-06-14 17:48:26 477

原创 mapreduce连接_reduceJoin

ReduceJoin作用:在reduce端进行多个数据源的连接。map: 处理来自不同文件的输入,将不同文件的连接字段作为key,其他字段作为value,输出到reduce.reduce:此时连接字段(key)相同的数据被分到同一个reduce中,进行字段合并即可.本例使用reduceJoin实现问题1问题描述:1、 任意多个数据源的内连接输入有两个文件,一个名为factory的输...

2019-06-13 20:27:10 326

原创 mapreduce排序_二次排序

二次排序Partitioner、SortComparator、GroupingComparatorPartitioner:完成分区,重写getPartition()函数SortComparator与GroupingComparator异同:相同:都要继承WritableComparator对象,构造函数关联bean对象,重写compare()方法.不同:SortComparator完成的是...

2019-06-09 13:48:15 285

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除