文本三剑客之awk详解

什么是AWK?

AWK是一种强大的文本处理工具,由Alfred Aho、Peter Weinberger和Brian Kernighan在1977年开发(名称正是三位开发者姓氏首字母)。它专为流式文本处理设计,支持模式扫描数据提取,常被用于日志分析、数据转换和报表生成等场景。


一、工作原理:

       当读到第一行时,匹配条件,然后执行指定动作,再接着读取第二行数据处理,不会默认输出 如果没有定义匹配条件默认是匹配所有数据行,awk隐含循环,条件匹配多少次动作就会执行多少次 逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中,并按 模式或者条件执行编辑命令。

       sed命令常用于一整行的处理,而awk比较、倾向于将一行分成多个""字段"然后再进行处理。awk 信息的读入也是逐行读取的,执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过 程中,可以使用逻辑操作符" &&"表示"与"、"||表示"或"、"!"表示非";还可以进行简单的数学运算,如+、 一、*、/、%、^分别表示加、减、乘、除、取余和乘方。

基础语法结构

AWK程序由模式-动作对组成:

pattern [ˈpætn]   模式 ; process [ˈprəʊses] 处理
任何 awk 语句都是由模式和动作组成,一个 awk 脚本可以有多个语句。模式决定动作语句的触发条件
和触发时间
  • 模式:可以是正则表达式(如/error/)、关系表达式(如$3 > 100)或特殊模式(BEGIN/END
  • 动作:包含在{}中的处理语句,如print, if, 循环等

示例1:字段提取

# 提取每行第一字段
awk '{print $1}' access.log

# 输出第三字段大于50的行
awk '$3 > 50 {print $0}' data.txt

内置变量解析
变量 说明 示例
NR 当前记录号(行号) awk 'NR==3 {print}'
NF 当前行的字段数量 awk '{print NF}'
FS 输入字段分隔符(默认空格) BEGIN{FS=":"}
OFS 输出字段分隔符(默认空格) BEGIN{OFS="\t"}

awk [options] 'BEGIN{ print "start" } ‘pattern{ commands }’ END{ print "end" 
}' 
file 其中:BEGIN END 是 AWK 的关键字部,因此必须大写;这两个部分开始块和结束块是可选的

二、执行流程

进阶技巧BEGIN 语句设置计数和打印头部信息,在任何动作之前进行 END 语句输出统计结果,在完成动作之后执行 AWK执行的流程非常简单:读(Read)、执行(Execute)与重复(Repeat)。下面的流程图描述出 了AWK的工作流程

三、基本语法

格式:awk关键字 选项 命令部分 '{xxxx}' 文件名 **

AWK 支持两种不同类型的变量:内建变量(可直接使用),自定义变量awk 内置变量(预定义变量)

如下所示:

FS:指定每行文本的字段分隔符,默认为空格或制表位。

NF:当前处理的行的字段个数。在执行过程中对应于当前的字段数,

NF:列的个数

NR:当前处理的行的行号(序数)。 在执行过程中对应于当前的行号

$0:当前处理的行的整行内容。

$n:当前处理行的第 n 个字段(第 n 列)。比如: $1 表示第一个字段,$2 表示第二个字段 FILENAME:被处理的文件名(当前输入文件的名)。

FNR 各文件分别计数的行号

OFS 输出字段分隔符(默认值是一个空格)

ORS 输出记录分隔符(默认值是一个换行符)

RS:行分隔符。

awk从文件上读
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值