awk -F€ '{if(NF!=25) print $0}' a_10000_20140801_VGOP1-R2.10-63227_00_001.dat
awk -F€ '{if(length($16)>20) print $0}' i_10000_20140917_VGOP1-R2.13-75305_01_001.dat
awk -F'|' '$2~"[a-zA-Z]" {print $0}' lx_use_detail_log_201409*.txt
找出文件中第二列中包含字母的数据行,以‘|’作为分隔符;
awk -F'|' '$5~"[0-9]" {print $0}' i_10000_20141001_VGOP1-R2.13-21417_00_003.dat
awk -F€ '{ if (NF==17) printf("%s€%s\n\r", $1,$2 ) }' a_10000_20140814_VGOP1-R2.10-63217_00_020.dat>lihong.dat
awk -F€ '{ if (NF==17) printf("%s€%s€%s€%s€%s€%s€%s€%s€%s€%s€%s€%s€%s€%s\n\r", $1,$2,$3,$4,$5,$6,$8,$9,$10,$12,$14,$15,$16,$17 ) }' a_10000_20140814_VGOP1-R2.10-63217_00_020.dat>a_10000_20140814_VGOP1-R2.10-63217_00_020.dat.tmp
输出结果:
38000001€117.136.31.34
38000002€221.6.152.179
计算文件记录行数:
1:awk 'END{printf "%d\n", NR}' 数据文件名
2:cat 数据文件名 | sed -n '$='
3:wc -l 数据文件名
4:ls -l 文件名 | awk ‘{print $5}’、
awk 'BEGIN {ORS="\r\n"} {print $0 }' dong.txt
awk '{FS="\001"} {print $1"€"$2}' appGame.txt
除了awk的内置变量,awk还可以自定义变量。
下面统计/etc/passwd的账户人数
awk '{count++;print $0;} END{print "user count is ", count}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
......
user count is 40
count是自定义变量。之前的action{}里都是只有一个print,其实print只是一个语句,而action{}可以有多个语句,以;号隔开。
这里没有初始化count,虽然默认是0,但是妥当的做法还是初始化为0:
awk 'BEGIN {count=0;print "[start]user count is ", count} {count=count+1;print $0;} END{print "[end]user count is ", count}' /etc/passwd
[start]user count is 0 root:x:0:0:root:/root:/bin/bash
...
[end]user count is 40
统计某个文件夹下的文件占用的字节数
ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}'
[end]size is 8657198
如果以M为单位显示:
ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}' [end]size is 8.25889 M
注意,统计不包括文件夹的子目录。
条件语句
awk中的条件语句是从C语言中借鉴来的,见如下声明方式:
if (expression) {
statement;
statement;
... ...
} if (expression) {
statement;
} else {
statement2;
} if (expression) {
statement1;
} else if (expression1) {
statement2;
} else {
statement3;
}
统计某个文件夹下的文件占用的字节数,过滤4096大小的文件(一般都是文件夹):
ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}'
[end]size is 8.22339 M
循环语句
awk中的循环语句同样借鉴于C语言,支持while、do/while、for、break、continue,这些关键字的语义和C语言中的语义完全相同。
数组
因为awk中数组的下标可以是数字和字母,数组的下标通常被称为关键字(key)。值和关键字都存储在内部的一张针对key/value应用hash的表格里。
由于hash不是顺序存储,因此在显示数组内容时会发现,它们并不是按照你预料的顺序显示出来的。数组和变量一样,都是在使用时自动创建的,
awk 也同样会自动判断其存储的是数字还是字符串。一般而言,awk中的数组用来从记录中收集信息,可以用于计算总和、统计单词以及跟踪模板
被匹配的次数等等。
显示/etc/passwd的账户
awk -F ':' 'BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}'/etc/passwd
0 root 1 daemon 2 bin 3 sys 4 sync 5 games
......
这里使用for循环遍历数组
本文深入解析AWK命令的使用方法及应用场景,包括数据筛选、统计与格式化输出等核心功能,并通过实例演示如何利用AWK进行高效的数据处理。
674

被折叠的 条评论
为什么被折叠?



