
MapReduce
maclaren001
这个作者很懒,什么都没留下…
展开
-
MapReduce两个数据源关联
平时开发的时候会遇到很多需要将HDFS上多个数据源的某个字段做为关联字段,得出多个数据源的笛卡儿积。了解了MapReduce多数据源关联的基本思路后就很简单。基本思路:在Map输入阶段获取输入路径,在Map输出阶段根据路径的不同加以区分,即在将关联的列作为Key,在Value中加以区分是哪个数据源的数据,接着在Reduce的输入阶段,在reduce方法的入参会得到所有Key相同的集合,这样便可原创 2015-03-07 12:25:42 · 2720 阅读 · 0 评论 -
MapReduce跑数导入HBase
日常开发中可能会碰到需要编写MapReduce从HDFS上读取数据,然后导入HBase。一般会使用到两种方式,下面分别介绍下。第一种方式:指定OutputFormatClass为TableOutputFormat,构造Put对象,然后设置到OutputValueClass去。 Configuration conf = ConfSource.getHBaseConf();原创 2015-03-07 11:53:13 · 788 阅读 · 0 评论