awk 命令

本文详细介绍了awk命令的基本概念、工作原理及使用方法。awk是一种强大的文本处理工具,支持复杂的正则表达式和数学运算,适用于Linux/Unix环境。文章还列举了awk的内置变量及其应用场景。

awk 命令

简介:

​ awk命令 – 文本和数据进行处理的编程语言

​ awk命令是一种编程语言,用于在linux/unix下对文本和数据进行处理。

​ 而且它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。

工作原理

​ 逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中,并按模式或者条件执行编辑命令。

​ sed命令常用于一整行的处理,而awk比较倾向于将一行分成多个“字段”然后再进行处理。awk信息的读入也是逐行读取的,执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过程中,可以使用逻辑操作符“&&”表示“与”、“||”表示“或”、“!”表示“非”;还可以进行简单的数学运算,如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。

使用语法:

awk  参数 'BEGIN{} // {action1;action2} END{}'  file_name    # awk里面变量不用加$  

awk常见的内建变量(可直接使用)

内建变量说明
FS列分割符。指定每行文本的字段分隔符,默认为空格或制表位。与"-F"作用相同
NF当前处理的行的字段个数
NR当前处理的行的行号(序数)
$0当前处理的行的整行内容
$n当前处理行的第n个字段(第n列)
FILENAME被处理的文件名
RS行分隔符。awk从文件上读取资料时,将根据RS的定义把资料切割成许多条记录,而awk一次仅读入一条记录,以进行处理。预设值是’\n’

可选的参数:

  • -v 定义变量
  • -f 调用脚本
  • -F 指定分隔符

​ 尽管操作可能会很复杂,但语法总是这样,其中 BEGIN 表示 在开始之前做的事, // 是匹配代码块,可以是字符串或正则表达式,用斜杠包起来。而 action 是在找到匹配内容时所执行的一系列命令,包含一条或多条命令,多条命令用 ; 隔开。END{} 是结尾代码块,在对每一行进行处理之后再执行的代码块,主要是进行最终计算或输出结尾摘要信息

​ awk语言的最基本功能是在文件或者字符串中基于指定规则浏览和抽取信息,awk抽取信息后,才能进行其他文本操作。完整的awk脚本通常用来格式化文本文件中的信息。通常,awk是以文件的一行为处理单位的。awk每接收文件的一行,然后执行相应的命令,来处理文本。

awk中字符的含义:

$0      表示全部内容
$1      每行第一个字段
NF      字段数量
NR      每行的记录号,多文件记录递增
FNR     与NR类似,不过多文件记录不递增,每个文件都从1开始
\t      制表符,tab键一个位置
\n      换行符
FS      BEGIN时定义分隔符
RS      输入的记录分隔符, 默认为换行符(即文本是按一行一行输入)
~       包含
!~      不包含
==      等于,必须全部相等,精确比较
!=      不等于,精确比较
&&      逻辑与
||      逻辑或
-F [:#/]    定义了三个分隔符
+       匹配时表示1个或1个以上
OFS     输出字段分隔符, 默认也是空格,可以改为其他的
ORS     输出的记录分隔符,默认为换行符,即处理结果也是一行一行输出到屏幕
/[0-9][0-9]+/     两个或两个以上数字
/[0-9][0-9]*/     一个或一个以上数字

调用awk:

1.将所有的awk命令插入一个单独文件,然后调用:
awk -f awk-script-file input-file(s)
其中,-f选项加载awk-script-file中的awk脚本,input-file(s)跟上面的是一样的。

2.命令行方式
awk [-F  field-separator]  'commands'  input-file(s)
其中,commands 是真正awk命令,[-F域分隔符]是可选的。 input-file(s) 是待处理的文件。
在awk中,文件的每一行中,由域分隔符分开的每一项称为一个域。通常,在不指名-F域分隔符的情况下,默认的域分隔符是空格。

3.shell脚本方式
将所有的awk命令插入一个文件,并使awk程序可执行,然后awk命令解释器作为脚本的首行,一遍通过键入脚本名称来调用。
相当于shell脚本首行的:#!/bin/sh
可以换成:#!/bin/awk
print和printf

​ awk中同时提供了print和printf两种打印输出的函数。

​ 其中print函数的参数可以是变量、数值或者字符串。字符串必须用双引号引用,参数用逗号分隔。如果没有逗号,参数就串联在一起而无法区分。这里,逗号的作用与输出文件的分隔符的作用是一样的,只是后者是空格而已。

printf函数,其用法和c语言中printf基本相似,可以格式化字符串,输出复杂时,printf更加好用,代码更易懂。

简单使用awk:

打印全部内容

# 原文件
[root@localhost ~]# cat luo
rdffef dw ew
fewff fre ffr
rerf fde wewd

# 使用 awk 打印
[root@localhost ~]# awk '{print $0}' luo
rdffef dw ew
fewff fre ffr
rerf fde wewd

打印第一列和第三列

[root@localhost ~]# awk '{print $1}' luo
rdffef 
fewff 
rerf 

[root@localhost ~]# awk '{print $3}' luo
ew
ffr
wewd

包含第三列为 dw ,打印包含的第一列

[root@localhost ~]# cat luo
rdffef dw ew
fewff fre ffr
rerf fde wewd

[root@localhost ~]# awk '$3 ~ /ffr/ {print $1}' luo
fewff
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值