- 博客(19)
- 资源 (1)
- 收藏
- 关注
awk的一些使用方法
输出字符串长度:[code="java"]awk '{if(length($1)>200)print}' [/code]去掉最后两行:[code="java"]awk 'NF-=2' 2C.txt | le [/code]for语句与split语句:[code="java"]le rid_list.txt | awk -F\; '{for(i=1;i...
2012-04-01 17:50:33
134
hadoop的一些使用方法
命令行查看当前正在执行的job id:[code="java"][hadoop@compute-63-9 ~]$ /hadoop/hadoop_home/bin/hadoop job -jt compute-63-0:9001 -list all |awk '{ if($2==1) print $1 }'job_201203311041_0041[/code]设置副本数目[...
2012-04-01 17:49:12
186
MapReduce的工作原理-笔记
To create the list of tasks to run, the job scheduler first retrieves the input splits computed by the JobClient from the shared filesystem.It then creates one map task for each split.事实上,当输入数据足够小...
2011-12-21 09:29:30
148
gcc编译问题
[code="java"][hadoop@hs15 soap2.21]$ makegcc -c -msse3 -O3 -funroll-loops -maccumulate-outgoing-args -fomit-frame-pointer -DMAKE_TIME=\""`date`"\" -DPTHREADS BWT.c -o BWT.oBWT.c:537: error: sh...
2011-12-19 14:34:57
186
DistributedCache使用
DistributedCache使用:1.import包[code="java"]import org.apache.hadoop.filecache.DistributedCache;[/code]2.加到Cache中[code="java"]DistributedCache.addCacheFile(new Path(args[++i]).toUri(), jo...
2011-12-18 16:50:04
138
hadoop Incompatible namespaceIDs
错误:[code="java"]ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs[/code]DataNode的VERSION内容:[code="java"][hadoop@dl180-2 current]$ more /...
2011-12-18 16:47:00
125
hadoop控制mapper的数目
由于数据上传后,一般以集群的默认dfs.block.size作为块大小。但是由于我的输入文件小于块大小,但是每一行又需要在mapper中做并行,在默认的情况下,hadoop只会开一个mapper。后来通过看hadoop的源码分析发现有个方法:在主函数中设置:[code="java"]job.getConfiguration().setInt("mapred.max.split.size...
2011-12-18 16:41:29
194
sed的一些使用方法
用SED如何輸出指定範圍的行,輸出的是1-5行[code="java"]sed -n '1,5p' filename [/code]如果要求輸出的是1,9,11,33行[code="java"]sed -n '1p;9p;11p;33p' urfile[/code]替换:[code="java"]sed -i "s/-Xmx4096m/-Xmx2048m/g" ma...
2011-12-18 16:36:29
133
分布式文件系统NFS上搭建hadoop集群
总的来说,hadoop并不适合搭建在NFS上。一来是NFS的存储成本过高,二来损失了hadoop原本在分布式上的“本地性”特点。不过由于各种各样的原因,有时候需要在分布式文件系统NFS上搭建hadoop。分布式NFS这种架构主要是计算节点和存储节点的分离。计算节点带有少量的存储。在某些情况下甚至没有存储可以用,这是因为计算节点除了装系统的空间外,不给用户在计算节点上存储任何东西。因...
2011-12-18 16:32:54
422
简单的分布式矩阵乘法
[u][b]其实就是用DistributeCache将其中的一个较小的矩阵放到内存中。[/b][/u][img]http://dl.iteye.com/upload/attachment/569328/dce74e64-d3ff-376e-909d-370a37c8b679.png[/img]
2011-10-13 10:18:53
837
python的小puzzle
[code="java"]a=[1]for aa in a: print aa a.append(aa+1)[/code]结果就是无限循环啦。每次输出是前面加一。既然append不行,那就insert在前面吧。[code="java"]a=[1]for aa in a: print aa a.insert(0,aa+1)[/c...
2011-10-12 19:51:19
373
ganglia集群监控
安装的方法网上一大堆,不同的系统有不同的方法,只有试过才知道那个最适用自己集群的。我的系统是rhel,就直接yum安装后来发现图表的坐标没显示出来,找了最新版的gweb放到apache的目录下,还是不行,就猜想可能是rrdtool的版本过低导致,因此查看了一下rrdtool的版本,发现是1.2的,网上那些有坐标的都是1.3以上的。于是下载了一个最新的1.4.5的版本。...
2011-10-09 20:08:53
101
Shell的一些使用方法
获取本机所有用户:[code="java"]cat /etc/passwd[/code][b]dd用于复制,从if读出,写到of。if=/dev/zero不产生IO,因此可以用来测试纯写速度。同理of=/dev/null不产生IO,可以用来测试纯读速度。bs是每次读或写 [/b]1.测/目录所在磁盘的纯写速度:[code="java"]time dd if=/dev/zero ...
2011-09-27 10:12:16
114
printf()与fprintf()函数的问题
下面代码直接Segment fault出错:[code="java"]printf(">@;?.=@?>)>%25135501313>;0=71-
2011-09-26 09:05:14
228
原创 VI指定自己的配置文件
[code="java"]vim abc.java -u xxx.conf[/code]abc.java为要编辑的文件。xxx.conf内放置自己的配置内容即可。这样用vim干不同的事情的时候可以使用不同的配置文件。写代码常用的就是:[code="java"]set expandtabset nuset tabstop=2set shiftwidth=2se...
2011-08-25 10:37:19
185
hadoop一句话加Counter
[code="java"]context.getCounter("Graph","End_Node").increment(1);[/code]适合用来调试。
2011-08-24 20:44:58
89
Idempotent-幂等
idempotent n. [数] 幂等幂等(idempotent、idempotence)是一个数学或计算机学概念,常见于抽象代数中。 [b]幂等有以下几种定义: [/b]对于单目运算,如果一个运算对于在范围内的所有的一个数多次进行该运算所得的结果和进行一次该运算所得的结果是一样的,那么我们就称该运算是幂等的。比如绝对值运算就是一个例子,在实数集中,有abs(a)=abs...
2011-08-12 12:24:31
469
欧几里德(最大公约数)
也就是常说的辗转相除法。最早我们理解的都是通过减法实现的,如下面递归方式:[code="java"]long gcd (long m, long n){ if (m==n) return n; else if(m0) { long r = a%b; a = b; b = r; } }[/code]实现起来虽然比...
2011-08-06 12:55:40
188
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人