- 博客(5)
- 收藏
- 关注
原创 01_Hadoop入门
Hadoop入门1.Hadoop概述1.1大数据概念大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决的问题:海量数据的存储和计算1.2大数据特点Volume (大量)Velocity (高速)Variety (多样)Value (低...
2020-04-08 18:47:32
163
原创 mapreduce连接_mapJoin
MapJoin1.作用:reduceJoin在进行数据连接时效率低,用mapJoin来提升数据连接的效率。在map端进行不同数据源的数据连接。2.DistributeCache:若进行大数据与小数据的连接,可以将小数据文件复制到所有mapper上,进行map端的连接。在driver中共享cacheFile:job.addCacheFile(new URI("cacheFile"));...
2020-04-08 13:43:23
314
原创 mapreduce连接_外连接、左外连接、右外连接
外连接、左外连接、右外连接本例实现问题2:外连接、左外连接、右外连接问题描述:1、 任意多个数据源的内连接输入有两个文件,一个名为factory的输入文件包含描述工厂名和其对应地址ID的表,另一个名为address的输入文件包含描述地址名和其ID的表格。请编写一个程序输出工厂名和其对应地址的名字。输入:输入有两个文件,第一个描述了工厂名和对应地址的ID,第二个输入文件描述了地址名和其I...
2019-06-14 17:48:26
477
原创 mapreduce连接_reduceJoin
ReduceJoin作用:在reduce端进行多个数据源的连接。map: 处理来自不同文件的输入,将不同文件的连接字段作为key,其他字段作为value,输出到reduce.reduce:此时连接字段(key)相同的数据被分到同一个reduce中,进行字段合并即可.本例使用reduceJoin实现问题1问题描述:1、 任意多个数据源的内连接输入有两个文件,一个名为factory的输...
2019-06-13 20:27:10
326
原创 mapreduce排序_二次排序
二次排序Partitioner、SortComparator、GroupingComparatorPartitioner:完成分区,重写getPartition()函数SortComparator与GroupingComparator异同:相同:都要继承WritableComparator对象,构造函数关联bean对象,重写compare()方法.不同:SortComparator完成的是...
2019-06-09 13:48:15
285
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人