大数据
weixin_44349574
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
FileInputFormat切片源码及解析、切片大小参数配置
1.Job提交流程源码详解 1.Job提交流程源码详解 waitForCompletion() submit(); // 1建立连接 connect(); // 1)创建提交Job的代理 new Cluster(getConfiguration()); // (1)判断是本地yarn还是远程 initialize(jobTrackAddr, conf); ...原创 2019-07-08 00:25:00 · 414 阅读 · 0 评论 -
MapReduce
MapReduce是一个面向大数据并进行处理的计算模型和框架。主要采用将海量数据分发到计算机集群进行运算,最后将结果汇总的先拆分再合并的思想。这样做最大好处就是成本低,速度快,计算机集群采用的都是普通的配置,联合集群中单个节点的运算能力,提高整体的处理速度,并且可以增加节点的数量来提高计算性能。 在处理数据时,通过将Map调用的输入数据,自动分割...原创 2019-07-08 20:43:21 · 191 阅读 · 0 评论 -
小白读《Google MapReduce》心得
开门见山,在接触大数据hadoop等的这几天里,各种大数据的专有名词出现在我的世界里,对各中架构、模型也开始了解。 在读《Google MapReduce》之前,对MapReduce的了解是认为它是处理海量数据的一种模型。在处理海量数据时,在Map阶段将大量的数据分发到各个服务器上,由服务器进行处理后,在Reduce阶段将处理结果汇总,最后展现出来。阅读了这篇文章后,对其模型的内部结构,行为处理...原创 2019-07-01 01:48:51 · 196 阅读 · 0 评论
分享