
hadoop
caoeryingzi
这个作者很懒,什么都没留下…
展开
-
hadoop 备忘
在linux下安装单机版的hadoop,版本为:hadoop-ant-0.20.203.0,这个格外要注意。安装目录在我的个人用户下的hadoop文件。根据jdk的版本将其设置改为:export JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk其原创 2011-07-26 18:48:47 · 558 阅读 · 0 评论 -
xml文件加载
今天想把一个xml文件加载到本地,hadoop下,怎么都不行了。appcontext查找了,没仔细看api,后来同事一看就改过来了。哎,我应该用FileSystemXmlApplicationContext,原来用的是classpath的方式。其实我也觉得这个应该修改,可我看了半天,没找到那个可以用。于是就接着用classpath试,总不过啊。TMD,我再找appcontext还是没有找到合适转载 2011-12-08 18:07:35 · 1126 阅读 · 0 评论 -
马虎大意
擦,我特别想说脏话,郁闷死了。一个job,我把目录写错了,怎么都不对。后来别人帮我看了好几遍,才发现是目录写错了。我实在觉得抱歉,唉,感觉郁闷死了。原创 2011-12-14 21:32:56 · 704 阅读 · 0 评论 -
hfile的操作
hfile到hbase load时,是把整个hfile文件mv走的,不是cp。难怪这么快啊……TMD,今天因为这个测试半天,我发现我就是个IT白痴……原创 2011-12-16 17:38:48 · 695 阅读 · 0 评论 -
hfile到hbase
去年年底留下的一个问题,我当时查找错误时,就觉得这个问题肯定是我使用的方法不对,绝对不是hbase的bug。可当时大家都要保证稳定过年,所以也就没有找人帮我来查找这个问题。具体是我将大文件通过写入hfile,然后再load到hbase中。但是我发现hbase中几乎没什么key value了。count得到的数目是对的,但是通过key找value时是找不到的。而我反查hfile也没发现有原创 2012-03-10 16:14:51 · 1140 阅读 · 0 评论 -
secondary sort
class FirstPartitioner extends Partitioner { @Override public int getPartition(Text key, MapWritable value, int numPartitions) { String []allKey = key.toString().split("\t"); i原创 2012-03-30 14:13:54 · 694 阅读 · 0 评论 -
twitter
twitter 和facebook的很多文章还是值得学习的,尤其是其工程性特别强。http://www.umiacs.umd.edu/~jimmylin/publications/index.html大多是关于twitter的文章。http://pleasescoopme.com/是另外一个人在facebook,常常有一些报告和文章note出来,很不错。原创 2012-07-18 17:34:12 · 553 阅读 · 0 评论 -
flatten
今天通过不断的尝试,终于知道这个flatten的用法了。其实吧,有时候关键是要test,才能充分理解解说。不过,同事给说的有点问题,误导了我。整的我一直没明白怎么回事。这是官方的解释:The FLATTEN operator looks like a UDF syntactically, but it is actually an operator that changes the原创 2012-09-11 17:59:36 · 8025 阅读 · 1 评论 -
pig udf实现
pig的UDF实现了用简单的pig命令难以实现的功能,一般是直接对tuple操作的。而且这个有个好处是用户可以自己定义的。自己写udf,要注意几点:1. udf传入的参数是tuple。2. udf操作时,有点类似于对group后的结果进行操作,我们可以对group内的每一个元素进行操作,但是你要记住,每一个元素是什么,这样你才能get(0),get(1)等等。3原创 2012-09-18 14:25:51 · 2158 阅读 · 0 评论 -
hadoop fs -put
hadoop fs -put filename hdfs这个时候,如果hdfs文件目录已经存在,此时则会将file放在hdfs/下的,而如果hdfs文件目录不存在,则把file/*的文件放在目录下,即此时hdfs目录下不存在filename.比如 hadoop fs -put /home/test/20121127 /user/test/data/ 此时原创 2012-11-28 14:30:30 · 69604 阅读 · 0 评论 -
hadoop
hadoop的使用记录,我在测试一部分数据,测试过程中,想ls出来看看,这样难免会修改job的outputformat,我在测一个工作任务,结果呢,我改了reducer的输出格式,也改了job的设置,可还是出错。开始不明白啊,我这个大粗人啊。今天看job的设置,突然看到了,里面有combine的设置,唉,一想combine是在reduce前,同时其输出也是reduce的输入,我明白原创 2013-08-12 15:56:33 · 734 阅读 · 0 评论 -
mrunit测试
mrunit是干什么的?为测试hadoop用的。其中很多功能是无法测试到的,需要写mock。而对于多输入吧,mapreducerdriver又没有办法setmapper,所以很是麻烦。同事吧,如果你的key是一个keyvalue对,测试起来也很麻烦。以前是同事从写了其shuffle功能,1.0的版本提供了这个。可以直接用mapreducedriver的这个shuffle功能实现原创 2013-07-25 14:02:13 · 820 阅读 · 0 评论 -
分布式下读取文件
advertiserFile = context.getConfiguration().get(ADVERTISER_INPUT); FileSystem adSystem = FileSystem.get(context.getConfiguration()); FSDataInputStream fsDataInputStream = adSystem.open(new P原创 2011-11-24 18:11:06 · 1744 阅读 · 0 评论 -
map reduce
题外话,非常想家,表弟过来住几天回家了,他一走我就开始想家了,非常想家,没这么脆弱过的。转入正题:hadoop上,map完成了数据的处理和过滤,map的输出是reducer,combiner的输入,而后把由map过滤后的数据通过combiner和reducer可以把相同k原创 2011-08-29 13:30:05 · 522 阅读 · 0 评论 -
hadoop的使用
使用这个大象已经有一两个月的时间了吧。基本上自己编程实现任务是有思路了,自己写了几个工作任务,但是都是在别人的程序的基础上的。具体加载多少东西,我觉得我还是照本宣科吧,很多东西没有用到就不去深究。最近搞定了多输入文档的使用,多个mapper使用同一个reducer,使用原理其实和原创 2011-09-22 07:18:52 · 695 阅读 · 0 评论 -
hadoop
hadoop下的map reduce有两种方式可以使用,一种是直接使用map reduce按照map reduce的格式进行变成,将输入输出的格式一定要一致。我目前看的程序是这样的,这个地方需要设置一些环境路径参数等,同时要注意在编程中只支持java,而在变成中有mapper r原创 2011-07-28 18:44:52 · 510 阅读 · 0 评论 -
mrunit
最近在开始写testcase,在hadoop下的例程要用mrunit,这里有一篇很好的介绍,转载一下吧。http://blog.youkuaiyun.com/gpcuster/article/details/4633265前提1. 了解JUnit4.x的使转载 2011-09-02 11:14:10 · 1639 阅读 · 0 评论 -
scp
题外话,听说这几天魔都要有台风,小区里都已经开始宣传安全知识了。希望别来台风啊,怪吓人的。今天再来说说scp吧,不过也不算是原创,拷贝别人的过来。from:http://blog.youkuaiyun.com/imzkz/article/details/5414546原创 2011-08-05 12:01:03 · 691 阅读 · 0 评论 -
hadoop 调用 user home的使用
今天从新跑一个小东西,别人的程序,可今天跑起来却出现问题。最后对比历史记录才发现是目录不对,输出目录我在分布式上用的是 home,正确的应该是user。这个主要是我一直没有弄明白home和user的区别。我不明白在hadoop下我用的home和user有什么区别,是l原创 2011-08-01 13:24:15 · 3299 阅读 · 1 评论 -
学会调试程序
hadoop下如果输出目录已经有了,是会报错的。这也是为了保证数据不被覆盖掉,安全期间设置的一个机制。我发现我过了个周末,把自己学的hadoop的知识全当饭吃掉了原创 2011-08-08 14:14:09 · 537 阅读 · 0 评论 -
调试
当在分布式系统上运行任务时,有了错误了,要学会看jobtasktracker,点击进去map reduce中,就可以看到出错提示信息。从而再回来调试程序。再者,java中,一个变量右键单击reference,workplace,然后可以看到该变量出现的类。原创 2011-08-08 17:34:34 · 506 阅读 · 0 评论 -
hbase的N多猜测
hbase由于要创建表格,添加数据,更新数据,所以遇到了些困惑。创建表格,添加数据没有问题了,可更新数据难住了我。我参考别人的代码,用java在hadoop下写的。其中更新和添加数据代码是一样的方式,我就纳闷了。问了一位同事,他不了解,不好意思总是打扰写代码的那位,尤原创 2011-08-09 17:38:17 · 561 阅读 · 0 评论 -
分布式计算
分布式计算,原来涉及到的都是一些简单的算法实现和测试,现在要在hadoop上跑模型,当然内部的很多东西自己仍然是捉摸不透的,所以不敢贸然下手。这是我的一个特点吧,对黑盒子似地东西,不敢随便动手。是不是所有的算法都适合分布式系统上跑,这种分布式的计算方式对模型的效果有什原创 2011-08-11 10:19:10 · 576 阅读 · 0 评论 -
参数传递,map reduce
今天尝试了参数的传递,试了不少方法,最后还是利用了map reduce自带的counter解决的。哎,我还是无法完全实现自由的参数传递,hadoop中传个参数够麻烦的。另外,发现程序中有些地方可能有问题,因为计算的结果加和不是一,这是令人头疼的一件事情啦。应该是前一个原创 2011-09-07 13:44:10 · 894 阅读 · 2 评论 -
IntWritable, int
今天搞定了ubuntu下安装ie浏览器,真是不可亲阿。另外,在mapreduce中,values的处理,IntWritable是一个对象,而如果想要用int参加计算,那么我们需要调用IntWritable对象的一个成员get(),这个函数返回int.原创 2011-08-19 15:26:30 · 11833 阅读 · 1 评论 -
mapreduce
今天写了个程序,怎么着都调试出错,说是输出的数据格式不对。我查看了mapper中,确实格式没错阿。后来才看到是我的job中设置成了mapwritable,而我的mapper中用的是intwritable格式,因此出现了冲突。这个东东的使用看来不是那么简单的,参数设置和中间ma原创 2011-08-24 16:07:16 · 857 阅读 · 1 评论 -
gpu hadoop
gpu hadoop from :http://www.youkuaiyun.com/article/2013-07-02/2816086-hadoop-gpu转载 2014-05-29 10:46:20 · 1894 阅读 · 0 评论