2011-11-13 wcdj
问题:
有两个目录,里面有很多的文件,目录a里的文件名都是20111111XXXXXX-00000000-XXXXXXX- XXXXXX.dat.Tdat,目录b里的文件名都是20111111XXXXXX-XXXXXXXX-XXXXXXX-00000000.Tdat,即目录a中文件的第二个字段和目录b中文件的第四个字段对应,如果两个字段相同,就把这两个文件名输出到同一个文件里,a,b目录中都有很多文件。
链接:
http://topic.youkuaiyun.com/u/20111111/16/b09ec762-86f0-4cc3-835e-2c4403bc839b.html
#!/bin/sh
ls a > a.file
ls b > b.file
awk -F'[-.]' 'NR==FNR {arr[$2]=$0;next}{if(arr[$4]) print arr[$4]"\n"$0}' a.file b.file > output.file
首先遍历目录a中的文件,将目录a中的所有文件以第二个字段为索引存储在一个数组中,然后再遍历目录b中的所有文件,以第四个字段为索引判断是否为空,若非空,即代表和目录a中的文件对应,然后分别打印出两个目录下的文件。
PS: NR表示当前记录数。FNR同NR,但相对于当前文件。
另外可参考:
http://blog.youkuaiyun.com/junmail/article/details/5793220
再附一个例子:
现有如下文件
2011-08-31|xxx|23|TGF|1.0
2011-08-31|xxx|23|TGF|1.0
2011-09-31|xxx|23|TGF|1.0
2011-09-31|xxx|23|TGF|1.0
2011-09-31|xxx|23|TGF|1.0
2011-08-31|xxx|23|TGF|1.0
变为:(以“|”为分割, 如果第一列,第二列,第四列相同,则在第四列之后加上_1,_2,_3之类的)
方法:
awk 'BEGIN{FS="|"; OFS="|"}{n=++a[$1$2$4]; if(n>1) $4=$4"_"n; print}' input_file