
大数据
俞文祥、
这个作者很懒,什么都没留下…
展开
-
Hadoop学习路线图
按照这个路线图来学习即可。 1、M. Tim Jones的三篇文章: 用Hadoop进行分布式数据处理第1部分(入门):http://www.ibm.com/developerworks/cn/linux/l-hadoop-1/index.html 用Hadoop进行分布式数据处理第2部分(进阶):http://www.ibm.com/developerworks/c转载 2017-07-22 14:38:23 · 304 阅读 · 0 评论 -
Map/Reduce原理
Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.这里详细分解这里面的概念让大家通过这篇文章了解到底是什么hadoop:转载 2017-08-25 11:07:22 · 268 阅读 · 0 评论 -
MapReduce工作原理图文详解
MapReduce工作原理图文详解前言:前段时间我们云计算团队一起学习了hadoop相关的知识,大家都积极地做了、学了很多东西,收获颇丰。可是开学后,大家都忙各自的事情,云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下,我们云计算团队重振旗鼓了,希望大伙仍高举“云在手,跟我走”的口号战斗下去。这篇博文就算是我们团队“重启云计算”的见证吧,也希望有更多优秀的文章出炉。汤帅,亮仔,转载 2017-12-05 11:40:48 · 196 阅读 · 0 评论 -
IntWritable详解
1.Hadoop数据类型如下图: 由上图的Writable层次结构图可以看到绝大多数的数据类型都实现了Writable、WritableComparable接口,在此先分析一下这两个接口情况。自顶下下逐步分析。Writable接口的定义如下:[java] view plain copy "font-family:SimSun;fon转载 2017-12-15 10:20:49 · 3513 阅读 · 0 评论 -
OutputCollector
OutputCollector 由 Hadoop 框架提供, 负责收集 Mapper 和 Reducer 的输出数据,实现map或者reduce 函数时,只需要简单地将其输出的 对往 OutputCollector 中一丢即可,剩余的事框架自会帮你处理好。原创 2017-12-15 10:53:59 · 342 阅读 · 0 评论 -
Hadoop Failed to set permissions of path 错误处理
nutch调试时出现的异常。Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator-4954228\.staging to 0700 at org.apache.hadoo转载 2017-12-15 16:12:41 · 299 阅读 · 0 评论 -
MapReduce代码实现1
三:MapReduce是一种分布式计算模型。Mapreduce框架有默认实现,程序员只需要覆盖map()和reduce()两个函数。MapReduce的执行流程1.Map Task (以一个入门例子的单词计数为例,两行一定行是hello word第二行是hello you中间是制表符) 1.1读取:框架调用InputFormat类的子类读取HDFS中文件数据转载 2017-12-07 19:41:13 · 980 阅读 · 0 评论 -
MapReduce代码实现2
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2017-12-07 19:42:16 · 198 阅读 · 0 评论 -
史上最详细的Hadoop环境搭建
前言Hadoop在大数据技术体系中的地位至关重要,Hadoop是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远。这是一篇入门文章,Hadoop的学习方法很多,网上也有很多学习路线图。本文的思路是:以安装部署Apache Hadoop2.x版本为主线,来介绍Hadoop2.x的架构组成、各模块协同工作原理、技术细节。安装不是目的,通过安装认识Hadoop才是...转载 2018-06-01 11:12:36 · 253 阅读 · 0 评论