Linux命令 awk

一、简介

awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。

awk的处理文本和数据的方式:它逐行扫描文件,从第一行到最后一行,寻找匹配的特定模式的行,并在这些行上进行你想要的操作。如果没有指定处理动作,则把匹配的行显示到标准输出(屏幕),如果没有指定模式,则所有被操作所指定的行都被处理。

awk分别代表其作者姓氏的第一个字母。因为它的作者是三个人,分别是Alfred Aho、Brian Kernighan、Peter Weinberger。

gawk是awk的GNU版本,它提供了Bell实验室和GNU的一些扩展。下面介绍的awk是以GUN的gawk为例的,在linux系统中已把awk链接到gawk,所以下面全部以awk进行介绍。

二、使用

awk [-F field-separator] 'commands' input-file(s)
其中,[-F域分隔符]是可选的,commands 是真正awk命令。 input-file(s) 是待处理的文件。
在awk中,文件的每一行中,由域分隔符分开的每一项称为一个域。通常,在不指名-F域分隔符的情况下,默认的域分隔符是空格。

三、模式

  1. 正则表达式:使用通配符的扩展集。
  2. 关系表达式:可以用下面运算符表中的关系运算符进行操作
  3. 可以是字符串或数字的比较,如$2>%1选择第二个字段比第一个字段长的行。
  4. 模式匹配表达式:用运算符(匹配)和!(不匹配)。
  5. 模式,模式:指定一个行的范围。该语法不能包括BEGIN和END模式。
  6. BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。
  7. END:让用户在最后一条输入记录被读取之后发生的动作。

四、常量

常量名含义
$n当前记录的第n个字段,字段间由FS分隔
$0完整的输入记录
NF浏览记录的域的个数
NR已读的记录数
ARGC命令行参数个数
ARGV命令行参数排列
ENVIRON支持队列中系统环境变量的使用
FILENAMEawk浏览的文件名
FNR浏览文件的记录数
FS设置输入域分隔符,等价于命令行 -F选项
OFS输出域分隔符
ORS输出记录分隔符
RS控制记录分隔符

五、常用函数

1. 求和
cat data | awk '{sum+=$1} END {print "Sum = ", sum}'
2. 求平均
cat data | awk '{sum+=$1} END {print "Average = ", sum/NR}'
3. 求最大值
cat data | awk 'BEGIN {max = 0} {if ($1>max) max=$1 fi} END {print "Max=", max}'
4. 求最小值(min的初始值设置一个超大数即可)
cat data | awk 'BEGIN {min = 1999999} {if ($1<min) min=$1 fi} END {print "Min=", min}'
5. 去重
awk -F':' '!a[$1]++'
6. 输入统计结果
cat data | awk 'info[$0]=++a[$12] {} END {print "TotalCount = ", NR; for(i in info){print i, info[i]} }'

还可以结合 grep/uniq(去重)/sort(排序)等命令一起使用

### Linux `awk` 命令使用教程 #### 什么是 `awk` `awk` 是一种强大的文本处理工具,在 Linux 和 Unix 系统中广泛用于解析和操作结构化数据文件。它能够按照指定条件筛选、提取以及格式化输出数据[^1]。 #### 基本语法 `awk` 的基本命令格式如下所示: ```bash awk [选项] '脚本' 文件名 ``` 其中,“脚本”部分通常由模式匹配和动作组成,形式为 `{action}` 或者 `pattern {action}`[^2]。 #### 结构化的执行流程 完整的 `awk` 脚本可以分为三个主要部分:`BEGIN` 部分(初始化)、主循环体(针对每一行的操作),以及 `END` 部分(总结)。其通用模板如下: ```bash awk 'BEGIN {commands} pattern {commands} END {commands}' filename ``` 这里,`BEGIN` 中的内容会在任何输入被读取之前被执行;而 `END` 则是在所有记录都已处理完毕之后才运行[^3]。 #### 实际应用案例 ##### 示例 1: 过滤特定字段的数据 假设有一个日志文件名为 `log.txt` ,我们希望找出第一列数值大于2的所有行,则可采用以下方法实现: ```bash $ awk '$1>2' log.txt # 输出样例: 3 Do you like awk This's a test 10 There are orange,apple,mongo ``` 此命令会打印出满足 `$1 > 2` 条件的所有行[^4]。 ##### 示例 2: 统计每行字符数并附加到原行后面显示 如果想要计算每行的长度并将该信息追加至对应行末尾展示出来的话,可以用这个技巧完成任务: ```bash $ awk '{print $0, length($0)}' example_file ``` ##### 示例 3: 访问内置变量 利用一些预定义好的特殊变量可以帮助更灵活地控制程序行为。比如通过访问 NF (number of fields),我们可以轻松获取当前行有多少个字段; 或者借助 NR (number record), 可知目前正处理的是第几条记录等等。 #### 注意事项 当需要清理系统的交换空间时,请勿混淆与上述提到有关于 `awk` 功能无关的操作指令。例如下面这条语句是用来关闭再重新开启所有的swap设备,并不是用来做数据分析工作的: ```bash # swapoff -a && swapon -a ``` 这应该单独作为维护系统性能的一部分来考虑[^5]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值