
Hadoop
molian123456
这个作者很懒,什么都没留下…
展开
-
Hadoop SequcenceFile 处理多个小文件
利用sequenceFile打包多个小文件,MapFile是sequenceFile的排序形式,程序如下: public class testSequenceFile { public static void main(String[] args) throws IOException{ Configuration conf = new Configuration(); ...原创 2012-04-29 11:04:58 · 156 阅读 · 0 评论 -
Hadoop Secondary NameNode
Due to its unfortunate naming, the Secondary NameNode (SNN) is sometimes confused with a failover backup for NameNode. It most certainly is not. The SNN only serves to periodically clean up and t...原创 2012-03-23 12:45:44 · 99 阅读 · 0 评论 -
Hadoop NameNode backup
NameNode:<property> <name>dfs.name.dir</name> <value>/home/hadoop/dfs/name,/mnt/hadoop-backup</value> <fi nal>true</fi nal></prop原创 2012-03-24 18:12:59 · 127 阅读 · 0 评论 -
MapReduce : Combiner的使用(以平均数为例) 并结合in-mapper design pattern 实例
没有使用Combiner 和 in-mapper desgin patternimport java.io.IOException;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.DoubleWritable;import org.apache.hadoop.io.IntWritable;...2012-04-10 18:51:47 · 483 阅读 · 0 评论 -
MapReduce : 新版API 自定义InputFormat 把整个文件作为一条记录处理
自定义InputFormat 新版API 把真个文件当成一条输入主要参考 源代码LineRecordReader里面的内容 有些细节还没有理解WholeFileInputFormatimport java.io.IOException;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io...2012-04-10 21:47:11 · 186 阅读 · 0 评论 -
MapReduce ReadingList
1. http://www.aicit.org/jcit/global/paper_detail.html?jname=JCIT&q=765 MapReduce for HITS Algorithm2. http://blog.youkuaiyun.com/hjwang1/article/details/6834230 参数调优3. http://heipark.iteye.com/blog...原创 2012-08-09 12:22:22 · 87 阅读 · 0 评论 -
多表join的一个优化思路
big table:streamed small table:buffered reduce the memory need and job count and w/r原创 2012-11-20 11:24:47 · 1076 阅读 · 0 评论 -
Hadoop 关于0.95/1.75 * (number of nodes)误解
reduce任务槽,即集群能够同时运行的reduce任务的最大数量 一般reduce的个数被设为:0.95/1.75 * (number of nodes),这里的nodes不是集群 中TaskTracker的总数,而是所有TaskTracker的reduce任务槽总数 0.95:若某个reduce任务失败,那么JobTracker很快...原创 2012-08-14 20:51:15 · 196 阅读 · 0 评论 -
Hadoop 开启debug信息
运行hadoop程序时,有时候你会使用一些System.out.println( )(不推荐使 用,尽量使用Logger)来输出一些信息来查看,调试运行信息,不过结果可能会令你失望,因为你根本就找不到你所希望的信息,但是如果通过web页面去查看job的logger,你会惊讶的发现里面竟有System.out的打印信息。这时只需exportHADOOP_ROOT_LOGGER=DEBUG,...原创 2012-08-14 20:51:55 · 371 阅读 · 0 评论 -
HDFS 输入文件避免切分
自定义InputFormat的子类,并把重载方法isSplitable()返回值设为false增加最小分片的大小,设置成大于要处理文件中最大文件的大小,简单的设成Long.MAX_VALUE即可 一般来说,分片大小计算公式如下: Max(minimumSize,min(maximumSize,blockSize)) mini...原创 2012-08-14 20:52:39 · 381 阅读 · 0 评论 -
java.io.IOException:Typemismatch in key from map:expected org.apache.hadoop.io
解决办法: job.setMapOutputKeyClass(IntWritable.class); job.setMapOutputValueClass(Text.class); job.setOutputKeyClass(Text.class); job.setOutpu...原创 2012-08-14 20:53:26 · 302 阅读 · 0 评论 -
Hadoop关于最大map reducer数目
mapred-site.xml文件:<property> <name>mapred.tasktracker.map.tasks.maximum</name> <value>2</value> <description>The maximumnumber of map tasks that will b...原创 2012-08-14 20:53:57 · 155 阅读 · 0 评论 -
Hadoop 自定义计数器
public static class mapper extends Mapper<Text, BytesWritable, Text , Text>{ private Counter c ; @Override protected void setup(Context context) throws IOException, Interrupte...原创 2012-04-22 09:04:52 · 144 阅读 · 0 评论 -
Hadoop 任务流程
简单的来说分为四个阶段:InputFormat/MapTask/Shuffle/ReduceTaskInputFormat: 输入文件 --> 转化 --> <K, V>MapTask : <K, V> --> map处理 --> <K', V'>Shuffle : <K', V'> --&g...2012-09-07 16:18:12 · 132 阅读 · 0 评论 -
Hadoop enabling trash
disable<property> <name>fs.trash.interval</name> <value>0</value> <description>Number of minutes between trash checkpoints. If zero, the trash feat...原创 2012-03-23 09:29:54 · 85 阅读 · 0 评论 -
hadoop probing for task-specific information
在mapper/reducer configure()阶段: String str = job.get("map.input.file"); System.out.println(str); System.out.println(job.get("job.local.dir")); System.out.println(job.get("mapred.jar"))...原创 2012-03-21 13:44:46 · 113 阅读 · 0 评论 -
Hadoop passing custom parameters
在mainjob.setInt("mac.value", Integer.parseInt(args[2]));map/reduce,一般在configure()int aa = job.getInt("mac.value", 0); 0是返回默认值或者:-D mac.value=5 mpinput mpoutput ...原创 2012-03-21 13:19:46 · 106 阅读 · 0 评论 -
Eclipse:Run on Hadoop 没有反应
hadoop-0.20.2下自带的eclise插件没有用,需要http://code.google.com/p/hadoop-eclipse-plugin/downloads/detail?name=hadoop-0.20.3-dev-eclipse-plugin.jar&can=2&q=替换原来的插件,即可!! 安装手册http://ebiquity.umbc.edu...原创 2012-05-10 20:11:24 · 214 阅读 · 0 评论 -
Cygwin ssh Connection closed by ::1
在Win7下Cygwin中,使用sshlocalhost命令,出现Connectionclosedby127.0.0.1的问题。解决方案:1、开端——运行——services.msc2、右键CYGWINsshd——属性——登录选项卡——选择“此账户”——浏览——高级——立即查找——选择你的账户名(必须为治理员权限)——输进密码(必须要有,空密码不承受)——确定。3、重启CYGWINsshd效劳即可...原创 2012-05-17 21:09:50 · 118 阅读 · 0 评论 -
Hadoop 在Window下搭建 守护进程启动问题
hadoopversion “0.20.2”java version "1.6.0_26"搭建完成后,start-all.sh启动所有进程,然后JPS一下结果如下: $ jps1404 JobTracker3056 NameNode4576 Jps但后ps一下呢,又显示5个jvm进程:$ ps PID PPID PGID ...原创 2012-05-23 15:27:04 · 120 阅读 · 0 评论 -
Cygwin 不支持native lib 不支持使用native lib 提供的压缩
弄了一个上午hadoop的压缩,一直报错NullPointer,最后看了wiki关于hadoop native lib 和压缩的介绍http://wiki.apache.org/hadoop/UsingLzoCompressionhttp://wiki.apache.org/hadoop/NativeHadoop原来native lab 在cygwin下不支持,Mac也不支持,目前只支...原创 2012-05-25 13:33:31 · 92 阅读 · 0 评论 -
DistributedCache FileNotFoundException
此时注意两种文件路径表示形式,一个在HDFS中。一一个是本地文件系统DistributedCache.getLocalCacheFiles(job) 返回的是:/home/hadoop/In然而:HDFS:hdfs://home/hadoop/In 本地: file://home/hadoop/In此时如果你想在HDFS获取数据,同时直...原创 2012-05-26 18:02:18 · 151 阅读 · 0 评论 -
Hadoop 自动清除日志
hadoop集群跑了很多的任务后在hadoop.log.dir目录下会产生大量的日志文件。可以通过配置core-site.xml文件让集群自动清除日志文件:<property> <name>hadoop.logfile.size</name> <value>10000000</valu...原创 2012-05-29 18:02:55 · 423 阅读 · 0 评论 -
"hadoop fs 和hadoop dfs的区别"
粗略的讲,fs是个比较抽象的层面,在分布式环境中,fs就是dfs但在本地环境中,fs是local file system,这个时候dfs就不能用原创 2012-05-30 15:27:05 · 153 阅读 · 0 评论 -
Cygwin使用SSH出现Connection closed by 127.0.0.1的解决方法
解决方案:1、开始——运行——services.msc2、右键CYGWIN sshd——属性——登录选项卡——选择“此账户”——浏览——高级——立即查找——选择你的账户名(必须为管理员权限,我用的是KeXie)——输入密码(必须要有,空密码不接受)——确定。3、重启CYGWIN sshd服务即可。这样就以你的账户的名义启动了这个服务。而后ssh localhost成功。...原创 2012-02-26 14:53:08 · 410 阅读 · 0 评论 -
Hadoop Cygwin 启动不起来可能原因
[code="java"]# The java implementation to use. Required.export JAVA_HOME=“C:\Program Files\Java\jdk1.6.0_26”[/code][color=red]====>[/color][code="java"]# The java implementation to use. Re...原创 2012-02-26 16:14:01 · 122 阅读 · 0 评论 -
hadoop on windows with Eclipse
http://ebiquity.umbc.edu/Tutorials/Hadoop/00%20-%20Intro.html hadoop无法正常启动(1)执行 $ bin/hadoop start-all.sh之后,无法启动.异常一 Exception in thread "main" java.lang.IllegalArgumentException...原创 2012-02-26 16:51:19 · 108 阅读 · 0 评论 -
HADOOP报错Incompatible namespaceIDs
使用bin/hadoop dfsadmin -report查看系统状态admin@adw1:/home/admin/joe.wangh/hadoop-0.19.2>bin/hadoop dfsadmin -reportConfigured Capacity: 0 (0 KB)Present Capacity: 0 (0 KB)DFS Remaining: 0 (0 KB)DFS U...原创 2012-02-26 19:29:14 · 96 阅读 · 0 评论 -
org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /user/kexie-pc/
stop-all.shstart-all.sh原创 2012-03-14 21:00:34 · 290 阅读 · 0 评论 -
Hadoop 自定义Counters
enum name:group nameenum filed:counter namestatic enum ClaimsCounters {Missing,QUIED};if(key.toString().contains("3")){ arg3.incrCounter(ClaimsCounters.Missing, 1);}else if(key.toStri...原创 2012-03-21 10:33:08 · 124 阅读 · 0 评论 -
好的网站
1. http://www.cnblogs.com/luchen927/archive/2012/01/16/2323448.html2.原创 2012-09-20 22:17:39 · 162 阅读 · 0 评论