
hadoop
文章平均质量分 76
lmc_wy
beautiful life,beautiful world!
Hello,World...
展开
-
hadoop 任务超时自动结束任务
对于一些线上任务,如果在一定时间没有结束,下一时刻任务会启动,那么上一时刻的任务将变得没有意义,但是仍然会占用hadoop资源,所以需要程序检测并自动结束。示例:hadoop jar /opt/hadoop/mapred/contrib/streaming/hadoop-0.21.0-streaming.jar \ -D mapreduce.job.name="jobna原创 2012-07-17 20:11:49 · 2058 阅读 · 0 评论 -
mapreduce过程
1、客户端提交,验证输入输出路径、输入数据分片,打包上传到jobtracker ... ...2、map过程: map输出会写到map端的跟jobID相关的temp目录(mapred.local.dir)下,但输出并非简单输出到磁盘; 1)首先输出到内存缓冲区(默认为100M,由io.sort.mb参数控制) 2)缓冲区使用率到阈值时(默认是0.8原创 2014-02-25 23:14:56 · 910 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
转自:http://www.alidata.org/archives/1470 hadoop作业调优参数整理及原理1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buff转载 2013-07-25 12:54:23 · 674 阅读 · 0 评论 -
ChainMapper和ChainReducer
hadoop api提供有ChainMapper和ChainReducer链式处理数据的接口,ChainMapper在一个map节点可以执行多个mapper逻辑,他们想unix管道一样,前一个map的输出作为后一个map的输入,知道最后一个map输出作为partition的输入,然后到reduce节点。而ChainReducer则不能从字面意义上理解为多个reduce连接起来处理数据,ChainR原创 2012-09-24 16:54:51 · 4679 阅读 · 10 评论 -
streaming方式的CombineFileInputFormat实现
hadoop版本问题严重,0.21的streaming方式无法正确使用combinefileinputformat,修改部分源码,以及实现CombineFileLineRecordReader。源码修改部分:hadoop-mapred-0.21.0.jar包里的org.apache.hadoop.mapred.lib.CombineFileInputFormat.java文件streami原创 2012-09-24 14:17:06 · 1901 阅读 · 0 评论 -
Hadoop JAVA程序-files功能测试
之前一直用hadoop streaming方式,-file功能非常实用,可以动态上传文件,例如一些配置文件等。之后开始寻找java程序中的-file功能,费了很大功夫,一直没有测试通过。后来发现GenericOptionsParser能解析一些特有命令参数,并且做相应处理,例如:遇到-files参数时,将文件上传到mapper节点。经过测试,-files命令参数必须在hadoop jar后紧接原创 2012-08-31 18:29:07 · 2519 阅读 · 0 评论 -
hadoop CombineFileInputFormat
hadoop在每一个数据储存节点启动一个map任务来处理数据,如果数据块太大,而map任务设定的分块大小小于数据块,那么一个数据块被拆分成多个数据块并拷贝到其它节点进行执行,这样有利于处理性能,特别是比较耗时的计算,希望数据分块较小;同时如果希望一个map节点处理较大的数据块,则可以设定mapred.min.split.size参数,将此参数调大,则可以让一个节点处理一个数据块;这是两种常见的需求原创 2012-09-06 14:33:20 · 4253 阅读 · 6 评论 -
hadoop map reduce 过程获取环境变量
hadoop任务执行过程中,在每一个map节点或者reduce节点能获取一下环境变量,利用这些变量可以为特殊的需求服务,例如:获取当前map节点处理的数据文件的路径。hadoop是java实现的,利用java可以很方便的获取相关环境变量,其内部包含在Context和MRJobConfig中(hadoop版本不一样,可能会有区别,我的hadoop是0.21)。举例:import原创 2012-07-24 12:54:37 · 4720 阅读 · 0 评论 -
hadoop streaming 多路输出
hadoop streaming工具很好的支持python 等各种脚本语言的map-reduce程序,开发方便高效,但是它没有直接支持多路输出(或者由于自己孤陋寡闻不知道),所以自己实现了一个多路输出的工具包,在hadoop streaming任务中添加简单配置即可实现多路输出。具体如下第一步:package test.lmc.com.cn;import org.apa原创 2012-05-03 17:24:29 · 4355 阅读 · 1 评论 -
hadoop yarn resouce manager如何避免单点问题
yarn resouce manger是所有服务的入口,维护着集群的状态信息,当然不能容忍单点问题,解决方案:http://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html转载 2015-06-29 22:01:22 · 954 阅读 · 0 评论