
大数据
文章平均质量分 65
suv1234
这个作者很懒,什么都没留下…
展开
-
hadoop原理
Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,hadoop核心设计:1、HDFS2、MapReduce框架解决了并行编程中的分布式存储、工作调度、负载均衡,容错处理、网络通信等,我们只需实现业务逻辑即可。原创 2017-05-21 19:48:46 · 228 阅读 · 0 评论 -
mapreduce原理
总的来说就是任务的分解与结果的汇总Mapreduce是一个分布式运算程序的编程框架,Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;整体结构一个完整的mapreduce程序在分布式运行时有三类实例进程:1、MRAppMaster(mapreduce application master):负责整原创 2017-05-21 21:00:57 · 400 阅读 · 0 评论 -
MAPREDUCE中的Combiner
(1)combiner是MR程序中Mapper和Reducer之外的一种组件(2)combiner组件的父类就是Reducer(3)combiner和reducer的区别在于运行的位置: Combiner是在每一个maptask所在的节点运行 Reducer是接收全局所有Mapper的输出结果; (4) combiner的意义就是对每原创 2017-05-21 21:08:24 · 490 阅读 · 0 评论 -
mapreduce的shuffle机制
解释mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程;具体来说,就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数据按key进行了分区和排序;核心机制:数据分区,排序,缓存;shuffle是MR处理流程中的一个过程,它的每一个处理步骤是分散在各个map task和reduce t原创 2017-05-21 22:34:28 · 406 阅读 · 0 评论 -
求两个数组的交集
问题: 给你两个排序的数组,求两个数组的交集。比如: A = 1 3 4 5 7, B = 2 3 5 8 9, 那么交集就是 3 5.思路:1. 每一次从B数组中取一值,然后在A数组里逐个比较,如果有相等的,则保存。该算法复杂度为 O(MN). M, N 分别为数组 A B 的长度。2. 因为A B 都排过序,所以,每一次从B数组取值后,可以利用二分查找看是否转载 2017-05-21 23:22:09 · 272 阅读 · 0 评论 -
mapreduce实现QQ好友推荐
A有QQ好友B B有QQ好友C 则A,C有可能是好友。public class QQMapper extends Mapper { @Override protected void map(LongWritable key, Text value, Context context) throws IOException, Interrupte原创 2017-05-22 11:25:05 · 999 阅读 · 0 评论 -
MapReduce自定义二次排序
1、输入数据:sort1 1sort2 3sort2 77sort2 54sort1 2sort6 22sort6 221sort6 202、目标输出sort1 1,2sort2 3,54,77sort6 20,22,221MapRed转载 2017-05-24 22:26:15 · 262 阅读 · 0 评论