
Hadoop学习
文章平均质量分 71
jokes000
这个作者很懒,什么都没留下…
展开
-
Hadoop MapReduce进阶 使用Chain
情况:在进行高级的数据处理时,你会发现你的程序不能放在一个的MapReduce job之中了。Hadoop支持将多个MapReduce Job串成一条链来形成一个更大的MapReduce Job。同时你会发现Hadoop数据处理过程中通常包括多个数据源,我们将探索一些join技术同时处理多个数据源。1.将具有复杂依赖关系的多个MapReduce Job串联起来。情况:有三个Job,分别成为翻译 2011-12-17 12:24:48 · 6565 阅读 · 3 评论 -
hadoop datanode无法启动
转自:http://blog.youkuaiyun.com/houqingdong2012/article/details/8633802碰到的问题: 在master以hadoop用户执行:start-all.sh jps查看master节点启动情况: NameNode转载 2013-05-04 09:36:55 · 994 阅读 · 0 评论 -
Ubuntu server配置IP地址
转自:http://www.yimiju.com/articles/411.html因为Ubuntu Server不像桌面版Ubuntu那样,可以非常简单的通过图形操作界面配置网卡IP。所以Yimiju再此讲解下手动修改网卡IP的两种方法:第一种方法:常规方法1、登录Ubuntu Server,然后通过“sudo -s” 切换到root用户。2、输入“cd转载 2013-04-12 13:13:04 · 1787 阅读 · 0 评论 -
Hadoop异常 hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.ipc.RemoteException
转自:http://blog.youkuaiyun.com/shenshouer/article/details/7360262按照http://hadoop.apache.org/common/docs/stable/single_node_setup.html上描述做单击为分布式测试时抛异常:root@ubuntu:~/sse/hadoop/hadoop-1.0.1# bin/转载 2012-07-01 23:01:37 · 21784 阅读 · 0 评论 -
[Hadoop] “Too many fetch-failures” or “reducer stucks” issue
转自:http://lykke.iteye.com/blog/1405838I post the solution here to help any ‘Hadoopers’ that have the same problem. This issue had been asked a lot on Hadoop mailing list but no answer was give转载 2012-07-01 11:32:17 · 1628 阅读 · 0 评论 -
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Incompatible namespaceIDs
转载:http://xiaoxia001.iteye.com/blog/1279354用三台centos操作系统的机器搭建了一个hadoop的分布式集群。启动服务后失败,查看datanode的日志,提示错误:ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatib转载 2012-06-30 15:23:31 · 18183 阅读 · 0 评论 -
hadoop管理NameNode和SecondaryNameNode
转自:http://hi.baidu.com/brianzhao/item/5e5c24ce7755523545941672光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其 实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存n转载 2012-06-29 18:15:24 · 2748 阅读 · 0 评论 -
Hadoop MapReduce示例代码
《Hadoop in Action》第四章习题:0.MaxValue:要求输出cite75_99.txt中最大的CITED值:要点: 1.Mapper只输出它所处理的数据中的最大值。(重写cleanup()函数) 2.设置Reducer数目为一个 -D mapred.reduce.tasks=1,同时也只输出所处理的最大值。(重写cleanup()函数) 3.原创 2011-12-15 20:34:27 · 11157 阅读 · 5 评论 -
Hadoop 使用Combiner提高Map/Reduce程序效率
众所周知,Hadoop框架使用Mapper将数据处理成一个键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈:如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网翻译 2011-12-15 10:39:19 · 21341 阅读 · 1 评论 -
基础MapReduce程序骨架
/*************************************************** * MapReduce Basic Template * Author: jokes000 * Date: 2011-12-14 * Version: 1.0.0 **************************************************/public翻译 2011-12-14 16:04:11 · 2147 阅读 · 0 评论 -
在Eclipse下配置运行hadoop
转载自:http://hi.baidu.com/lingsuch/blog/item/c374fdecda19e82127979198.html非常感谢此文对我提供的帮助。自己乱搞,出了点问题,弄来弄去,总算弄OK了主要就是版本的问题我的开发环境是:Ubuntu,如果安装的版本低,系统更新下1.安装eclipse版本是eclips转载 2011-12-14 15:07:29 · 3322 阅读 · 0 评论 -
Hadoop Map/Reduce InputFormat基础
有时候你可能想要用不同的方法从input data中读取数据。那么你就需要创建一个自己的InputFormat类。 InputFormat是一个只有两个函数的接口。public interface InputFormat { InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;翻译 2011-12-10 18:55:48 · 3720 阅读 · 0 评论 -
Hadoop Map/Reduce Partitioner概念
在Hadoop Map/Reduce框架下,当Mapper处理好数据后,需要使用Partitioner确定怎样合理地将Mapper输出分配到Reducer之中。 默认的情况下,Hadoop对键值对中的key取hash值来确定怎样分配给相应的Reducer。Hadoop使用HashParitioner class来执行这一操作。但是有时候HashPartitioner并不能完成它的功能。翻译 2011-12-10 15:07:24 · 4890 阅读 · 0 评论 -
Hadoop Map/Reduce OutputFormat概念
MapReduce使用OutputFormat类将数据输出存入文件中,其基本与InputFormat类似。输出没有分块,每个Reducer将它的输出直接写到自己的文件中。输出文件存在于一个共有目录当中,一般被命名为part-nnnnn,nnnnn是Reducer的分区ID。 Hadoop提供数种标准的OutputFormat的实现,如表中所示。几乎所有我们使用的类都继承自FileOu翻译 2011-12-10 20:08:28 · 4052 阅读 · 0 评论 -
Hadoop MapReduce进阶 使用分布式缓存进行replicated join
概念:reduce-side join技术是灵活的,但是有时候它仍然会变得效率极低。由于join直到reduce()阶段才会开始,我们将会在网络中传递shuffle所有数据,而在大多数情况下,我们会在join阶段丢掉大多数传递的数据。因此我们期望能够在map阶段完成整个join操作。主要技术难点:在map阶段完成join的主要困难就是mapper可能需要与一个它自己不能获得的数据进行j原创 2011-12-19 15:22:31 · 7135 阅读 · 0 评论 -
Hadoop Map/Reduce 新API中自己的FileInputFormat写法
在看《Hadoop in Action》时发现代码使用的是旧的API,且部分API已经标记为Deprecated。所以自己尝试着写了一个使用新API的例子来完成该代码的功能。数据格式如下:"CITING","CITED"3858241,9562033858241,13242343858241,33984063858241,3557384...程序的目的是将所原创 2011-12-11 22:39:01 · 5453 阅读 · 1 评论 -
Hadoop MapReduce新旧API区别
新增的Java MapReduce APIHadoop的版本0.20.0包含有一个新的 Java MapReduce API,有时也称为"上下文对象"(context object),旨在使API在今后更容易扩展。新的API 在类型上不兼容先前的API,所以,需要重写以前的应用程序才能使新的API发挥作用。新增的API 和旧的API 之间,有下面几个明显的区别。新的API转载 2011-12-10 23:29:47 · 6824 阅读 · 0 评论 -
Hadoop MapReduce进阶 使用DataJoin包实现Join
概念:Hadoop有一个叫DataJoin的包为Data Join提供相应的框架。它的Jar包存在于contrib/datajoin/hadoop-*-datajoin。为区别于其他的data join技术,我们称其为reduce-side join。(因为我们在reducer上作大多数的工作)reduce-side join引入了一些术语及概念: 1.Dat原创 2011-12-17 20:16:13 · 7608 阅读 · 15 评论 -
ganglia与Ubuntu安装与配置
第一步:安装Ubuntu下有两种安装方式:1. 使用官网教程,下载ganglia包进行编译。http://sourceforge.net/apps/trac/ganglia/wiki/Ganglia%203.1.x%20Installation%20and%20Configuration2. 使用apt-get安装。 命令:sudo apt-get install g原创 2013-10-03 19:58:47 · 1630 阅读 · 0 评论