
Hadoop
u010660276
这个作者很懒,什么都没留下…
展开
-
Hadoop集群搭建
在这里先感谢下面几篇博客: 一步步教你Hadoop多节点集群安装配置 Linux下安装搭建Hadoop集群 SSH原理与运用 我的安装过程和其中遇到的问题都是参考上面的几篇博客,还有我上一篇博客中提到的 yarn详解 。 既然有上面详细的搭建过程,我这就不再详述了,简单的记录一下,以便自己以后用到。我实在虚拟机中搭建的,一个master,一个slave1(无奈太卡,后来又改成了伪分布模式)转载 2016-03-19 11:31:54 · 351 阅读 · 0 评论 -
链接hadoop作业
有时候一个复杂的任务不能只用一个MapReduce作业完成,需要分解成多个子任务,每个子任务是一个单独的MapReduce作业。这个时候就需要将多个MapReduce作业连接起来让你真正明白什么是MapReduce组合式,迭代式,链式 多个mapreduce工作相互依赖处理方法完整实例(JobControl) Hadoop 依赖关系作业 MapReduce JobControl 错误纠正 1原创 2016-03-25 17:19:36 · 531 阅读 · 0 评论 -
BloomFilter
BloomFilter是一个大数据处理的算法,它用来判断某个元素是否在集合中。它在空间和时间效率上很高,但是存在移动的误报率。如果返回false,说明元素肯定不在集合中,也就是说不会漏报;但如果返回true,怎可能存在错误。BloomFilter算法: 1)位数组: 假设Bloom Filter使用一个m比特的数组来保存信息,初始状态时,Bloom Filter是一个包含m位的位数组,每一原创 2016-03-26 15:43:14 · 501 阅读 · 0 评论 -
Hadoop使用DATAJOIN软件包链接不同来源的数据
具体参见《Hadoop in action》 这里说一下几个问题:这几个问题在stackoverflow 得到了解决 (1)如何输入多个文件将多个文件放入一个文件夹,输入路径写文件夹的路径MultipleInputs.addInputPath(job, new Path(args[0]), TextInputFormat.class,MapClass.class);(2)TaggedWri原创 2016-03-24 22:26:48 · 477 阅读 · 0 评论 -
MapReduce实现TopK
Hadoop inaction上面的练习。刚开始考虑,每个分片应该是在所有的记录处理完之后,把这个分片的前K大输出给reduce,但是map函数是每个记录调用一遍,把怎么在所有记录调用完之后处理呢?setup(),此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一原创 2016-03-23 21:58:26 · 3383 阅读 · 0 评论 -
Hadoop 使用combiner提升性能
combiner的工作是在mapper结束之后,在本机上先进行的reducer操作,这样可以减轻数据网络传输的负担,提高性能。比如wordcount程序,mapper输出的是< key,1>这样的简直对,表示每个单词出现了一次,然后进行reduce,在数据量非常大的情况下,非常多的相同key的输出,在传送过程中会造成很大负担,所以我们可以在map节点上先进行combiner,将key相同的这些加起来原创 2016-03-23 17:04:06 · 545 阅读 · 0 评论 -
Hadoop模板(新API)
跟原来的API稍有不同,其实也差不多import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;i原创 2016-03-22 17:01:51 · 363 阅读 · 0 评论 -
Hadoop程序基础模板
输入文件格式为:X,Y,表示X引用Y; 本程序目的为将引用数据进行倒排,对于每一个专利找到引用他的那些专利import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import原创 2016-03-22 17:00:45 · 316 阅读 · 0 评论 -
第一个Hadoop程序WordCount
首先说一下在eclipse下搭建Hadoop开发环境准备工具:eclipse ,hadoop插件,注意版本要一致 eclipse可以去官网下载 插件我上传了一个,hadoop-eclipse-plugin-2.7.2.jar 将插件cp到eclipse/plugins下面Window -> Open Perspective -> Other 选择Map/Reduce在eclipse原创 2016-03-19 16:42:37 · 391 阅读 · 0 评论 -
hadoop划分为多个输出文件
现在我们见到的MapReduce作业的输出都是一组文件,那如果我想输出多组文件怎么办,比如说我想统计每个国家的专利情况,想以国家名作为文件名来输出。我们可以使用MultipleOutputFormat,它内部有一个方法generateFileNameForKeyValue,只要Override他,就可以根据自己的需要划分文件。他还有一些子类,像MultipleTextOutputFormat,Mul原创 2016-03-28 15:14:49 · 1260 阅读 · 0 评论