
mapreduce
bluekeyv
致力于hadoop生态系统,专注hbase应用与研究
展开
-
FileInputFormat分析
一.程序简介 在mapreduce程序运行的开始阶段,hadoop需要将待处理的文件进行切分,按定义格式读取等操作,这些操作都在InputFormat中进行。 InputFormat是一个抽象类,他含有getSplits()和createRecordReader()抽象方法,在子类中必须被实现。这两个就是InputFormat的基本方法。getSplits()确定输入对象的切分原则,而createRecordReader()则可以按一定格式读取相应数据。 二.程序详细分析 FileInputForm原创 2010-12-17 10:34:00 · 2915 阅读 · 0 评论 -
hadoop 中MapReduce因为文件打开文件数目超过linux限制报错
haoop中mapreduce报错 java.io.IOException: All datanodes xxx.xxx.xxx.xxx:xxx are bad. Aborting… at org.apache.hadoop.dfs.DFSClient$DFSOutputStream.processDatanodeError(DFSClient.java:2158) at org.apache.hadoop.dfs.DFSClient$DFSOutputStream.access$1400(DFSCl转载 2011-01-07 15:51:00 · 2946 阅读 · 0 评论 -
mapreduce中map和reduce的最大并发数量设置
reduce数量究竟多少是适合的。目前测试认为reduce数量约等于cluster中datanode的总cores的一半比较合适,比如cluster中有32台datanode,每台8 core,那么reduce设置为128速度最快。因为每台机器8 core,4个作map,4个作reduce计算,正好合适。 以上所说的是总的map和reduce数,那么具体到每台机器的最大并发map/reduce应该就以该机器的cores数/2合适原创 2011-01-07 15:52:00 · 4834 阅读 · 0 评论 -
MR操作hbase的一点心得(含hbase表拷贝样例代码)
最近在写基于hbase的MR程序。总结如下: 1、使用TableMapper来读取表 2、写入表的第一种方式是用TableMapReduceUtil.initTableReducerJob的方法,这里既可以在map阶段输出,也能在reduce阶段输出。区别是Reduce的class设置为null或者实际的reduce 以下是一个表copy的例子: package原创 2011-11-22 17:22:26 · 14889 阅读 · 0 评论 -
Hadoop 实战之MapReduce链接作业之预处理
环境:Vmware 8.0 和Ubuntu11.04 Hadoop 实战之MapReduce链接作业之预处理 第一步:首先创建一个工程命名为HadoopTest.目录结构如下图: 第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件,每次启动虚拟机都要删除/tmp目录下的全部文件,重新格式化namenode,代码如下:转载 2012-11-21 09:49:22 · 3061 阅读 · 0 评论