awk 多文件处理

########################
#
#   关于awk的多文件处理
#
######################## 

awk的数据输入有两个来源,标准输入和文件,后一种方式支持多个文件。

如:
1. shell的Pathname Expansion方式:awk '{...}'  *.txt 

#  *.txt先被shell解释,替换成当前目录下的所有*.txt,
#  如当前目录有1.txt和2.txt,则命令最终为awk '{...}' 1.txt 2.txt


2. 直接指定多个文件: awk '{...}' a.txt b.txt c.txt ...  
  
# awk对多文件的处理流程是,依次读取各个文件内容,如上例,先读a.txt,再读b.txt....



那么,在多文件处理的时候,如何判断awk目前读的是哪个文件,而依次做对应的操作呢?



########################
#
#     处理 2 个文件
#
########################

当awk读取的文件只有两个的时候,比较常用的有两种方法:

(1) 一种是 awk 'NR==FNR{...}NR>FNR{...}'  file1 file2   或    awk 'NR==FNR{...}NR!=FNR{...}' file1 file2

(2) 另一种是 awk 'NR==FNR{...;next}{...}' file1 file2


当awk读取的文件只有两个的时候,比较常用的有两种方法:

(1)一种是

awk 'NR==FNR{...}NR>FNR{...}' file1 file2


awk 'NR==FNR{...}NR!=FNR{...}' file1 file2



(2) 另一种是

awk 'NR==FNR{...;next}{...}' file1 file2



了解了FNR和NR这两个awk内置变量的意义就很容易知道这两种方法是如何运作的

FNR     The input record number in the current input file.  #已读入当前文件的记录数

NR      The total number of input records seen so far.      #已读入的总记录数

next    Stop processing the current input record. The next input record is
        read and processing starts over with the first pattern in the AWK
        program. If the end of the input data is reached, the END block(s),
        if any, are executed.




awk 'NR==FNR{...}NR>FNR{...}' file1 file2

# 读入file1的时候,已读入file1的记录数FNR一定等于awk已读入的总记录数NR,因为file1是awk读入的首个文件,故读入file1时执行前一个命令块{...}
# 读入file2的时候,已读入的总记录数NR一定>读入file2的记录数FNR,故读入file2时执行后一个命令块{...}


awk 'NR==FNR{...;next}{...}' file1 file2

# 读入file1时,满足NR==FNR,先执行前一个命令块,但因为其中有next命令,故后一个命令块{...}是不会执行的
# 读入file2时,不满足NR==FNR,前一个命令块{..}不会执行,只执行后一个命令块{...}


########################
#
#     处理 多个 文件
#
########################

当awk处理的文件超过两个时,显然上面那种方法就不适用了。因为读第3个文件或以上时,也满足NR>FNR (NR!=FNR),显然无法区分开来,所以就要用到更通用的方法了:

1. ARGIND        # 当前被处理参数标志

awk 'ARGIND==1{...}ARGIND==2{...}ARGIND==3{...}... ' file1 file2 file3 ...


2. ARGV            # 命令行参数数组

awk 'FILENAME==ARGV[1]{...}FILENAME==ARGV[2]{...}FILENAME==ARGV[3]{...}...' file1 file2 file3 ...


3. 把文件名直接加入判断

awk 'FILENAME=="file1"{...}FILENAME=="file2"{...}FILENAME=="file3"{...}...' file1 file2 file3 ...




########################
#
#        例子 1 
#
########################

现有file1,file2 两个文件。文件file1有2列,内容如:

no1 name1
no2 name2
no3 name2
no4 name3
no5 name4
no6 name4
no7 name4
no8 name5
no9 name6
no10 name6



文件file2 有6列,部分有空格,内容如下:

name1 data1 dada2 data3 data4 dada5
name2 dada6 data7 dada8
name3 data9 dada10 data11 dada12
name4 data13 dada14
name5 data15 dada16 
name6 data17 data18



如果file1的第2列跟file2的第1列匹配,则将两条数据合并成一条,合并后的数据应该是这样的:

no1 name1 data1 dada2 data3 data4 dada5
no2 name2 dada6 data7 dada8
no3 name2 dada6 data7 dada8
no4 name3 data9 dada10 data11 dada12
no5 name4 data13 dada14
no6 name4 data13 dada14
no7 name4
no8 name5 data15 dada16 
no9 name6 data17 data18
no10 name6 data17 data18



程序: 

awk 'NR==FNR{a[$1]=$0}NR>FNR{print $1" "a[$2]}' file2 file1




########################
#
#        例子 2
#
########################

file1:

sina.com 52.5
sohu.com 42.5
baidu.com 35



file 2:

www.news.sina.com sina.com 80
www.over.sohu.com baidu.com 20
www.fa.baidu.com sohu.com 50
www.open.sina.com sina.com 60
www.sport.sohu.com sohu.com 70
www.xxx.sohu.com sohu.com 30
www.abc.sina.com sina.com 10
www.fa.baidu.com baidu.com 50
www.open.sina.com sina.com 60
www.over.sohu.com sohu.com 20


合并的结果:

www.news.sina.com sina.com 80 52.5
www.over.sohu.com baidu.com 20 42.5
www.fa.baidu.com sohu.com 50 35
www.open.sina.com sina.com 60 52.5
www.sport.sohu.com sohu.com 70 42.5
www.xxx.sohu.com sohu.com 30 42.5
www.abc.sina.com sina.com 10 52.5
www.fa.baidu.com baidu.com 50 35
www.open.sina.com sina.com 60 52.5
www.over.sohu.com sohu.com 20 42.5



程序:

awk 'NR==FNR{a[$1]=$2;next}{print $0,a[$2]}' file1 file2


http://blog.chinaunix.net/space.php?uid=171341&do=blog&id=80536


### 如何使用 `awk` 进行批量文件处理 #### 使用 `awk` 处理多个文件 当需要对多个文件执行相同的操作时,可以利用 `awk` 的强大功能来简化这一过程。通过指定多个输入文件名作为参数传递给 `awk` 命令,可以在一次调用中完成多文件的数据解析与转换工作。 对于简单的批处理操作,可以直接在命令行上罗列待处理的文件列表: ```bash awk '{print $1}' file1.txt file2.txt file3.txt ``` 上述指令会依次读取每个文件的内容,并打印每一行的第一个字段[^1]。 #### 结合通配符实现更灵活的匹配 如果目标目录下存在大量具有相似命名模式的日志或数据记录文档,则可以通过引入路径表达式的概念进一步优化脚本设计。具体来说就是运用星号(*)或其他形式的正则字符集合作为占位符代表某一类特定类型的文件集合。 例如要统计某日志目录里所有 `.log` 后缀结尾文本中的错误条目数量: ```bash awk '/ERROR/ {count++} END{print count}' *.log ``` 这里不仅实现了跨文件的信息汇总计算,还展示了条件筛选以及最终结果输出的能力[^2]。 #### 利用循环结构自动化任务流程 为了使解决方案更加通用化,在某些场景可能涉及到动态获取待处理对象的情况。此时借助于 shell 脚本所提供的控制语句能够有效提升程序逻辑构建上的灵活性。 下面给出一段完整的例子用于说明如何遍历当前文件夹下的所有纯文本文件并提取其中第二列数值求平均值的过程: ```bash #!/bin/bash total=0 file_count=0 for filename in $(find . -name "*.txt"); do ((file_count++)) sum=$(awk '{sum += $2} END {print sum}' "$filename") total=$((total + sum)) done average=$((total / file_count)) echo "Average value across all txt files is: ${average}" ``` 此段代码片段首先定义了一个外部变量存储累加后的总和;接着采用 find 工具定位符合条件的目标资源;最后再配合内部 AWK 表达式完成核心运算部分的工作流描述[^3]。 #### 实现复杂业务需求 面对更为复杂的实际应用案例时,还可以考虑将更多高级特性融入到基于AWK的语言环境中去解决问题。比如关联数组的应用可以帮助我们轻松应对涉及分组聚合的需求;而自定义函数机制则允许封装重复使用的算法单元以便提高维护效率等等。 综上所述,掌握了这些技巧之后便足以胜任大多数日常工作中遇到的大规模文本型数据预处理挑战了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值