linux 命令 awk

awk 是 Linux/Unix 系统中一个强大的文本处理工具,尤其擅长处理结构化文本数据(如日志、表格数据)。它不仅是命令行工具,还是一种脚本语言,支持变量、条件、循环等编程特性

1. 基本语法

 awk [选项] '模式 {动作}' 文件名

  • 模式(Pattern):决定何时执行动作(如行号、正则匹配)。

  • 动作(Action):对匹配的行执行的操作(如打印、计算)。

 2. 核心概念

内置变量
变量说明
$0当前整行内容
$1, $2第1列、第2列(默认以空格分隔)
NR当前行号(从1开始)
NF当前行的列数
FS输入字段分隔符(默认空格)
OFS输出字段分隔符(默认空格)
FILENAME当前处理的文件名

常用选项
  • -F:指定输入字段分隔符(如 -F':' 以冒号分隔)。

  • -v:定义变量(如 -v var=value)。

 3. 经典用法示例

 提取特定列

# 提取文件的第一列和第三列
awk '{print $1, $3}' a.txt

# 输出时用分号分隔列
awk '{print $1 ";" $3}' a.txt

 

  过滤行

# 打印第二列大于50的行
awk '$2 > 50 {print $0}' data.txt

# 打印包含 "error" 的行(不区分大小写)
awk '/error/i {print}' log.txt

 跳过标题行

 # 从第二行开始处理(常用于CSV)
awk 'NR > 1 {print $1, $2}' data.csv

计算列总和 

 # 计算第一列的总和
awk '{sum += $1} END {print sum}' numbers.txt

 BEGIN 和 END 块

  • BEGIN:在处理输入前执行(如初始化变量)。

  • END:在处理完所有行后执行(如输出统计结果)

 # 统计文件行数并计算平均值

awk '
BEGIN {sum = 0; count = 0}
NR == 1 {next}  # 遇到第一行直接跳到下一行
{sum += $1; count++}
END {print "Average:", sum/count}
' test01.txt

 

条件语句与循环

# 根据条件处理不同列
awk '{
  if ($1 > 100) 
    print "High:", $0
  else 
    print "Low:", $0
}' values.txt

# 遍历所有列并打印偶数位置的值
awk '{for (i=1; i<=NF; i++) if (i%2==0) print $i}' file.txt

 自定义分隔符

# 根据条件处理不同列
awk '{
  if ($1 > 100) 
    print "High:", $0
  else 
    print "Low:", $0
}' values.txt

# 遍历所有列并打印偶数位置的值
awk '{for (i=1; i<=NF; i++) if (i%2==0) print $i}' file.txt

 关联数组(哈希表)

# 统计每列值的出现次数
awk '{count[$1]++} END {for (key in count) print key, count[key]}' data.txt

4. 与 cut/sed 的区别

工具核心用途优势场景
cut按列切割简单文本快速提取固定列
sed流编辑(替换、删除、插入)基于行的文本替换和过滤
awk结构化文本处理、计算、统计复杂字段处理、编程逻辑集成

5. 学习资源

### Linux `awk` 命令使用教程 #### 什么是 `awk` `awk` 是一种强大的文本处理工具,在 Linux 和 Unix 系统中广泛用于解析和操作结构化数据文件。它能够按照指定条件筛选、提取以及格式化输出数据[^1]。 #### 基本语法 `awk` 的基本命令格式如下所示: ```bash awk [选项] '脚本' 文件名 ``` 其中,“脚本”部分通常由模式匹配和动作组成,形式为 `{action}` 或者 `pattern {action}`[^2]。 #### 结构化的执行流程 完整的 `awk` 脚本可以分为三个主要部分:`BEGIN` 部分(初始化)、主循环体(针对每一行的操作),以及 `END` 部分(总结)。其通用模板如下: ```bash awk 'BEGIN {commands} pattern {commands} END {commands}' filename ``` 这里,`BEGIN` 中的内容会在任何输入被读取之前被执行;而 `END` 则是在所有记录都已处理完毕之后才运行[^3]。 #### 实际应用案例 ##### 示例 1: 过滤特定字段的数据 假设有一个日志文件名为 `log.txt` ,我们希望找出第一列数值大于2的所有行,则可采用以下方法实现: ```bash $ awk '$1>2' log.txt # 输出样例: 3 Do you like awk This's a test 10 There are orange,apple,mongo ``` 此命令会打印出满足 `$1 > 2` 条件的所有行[^4]。 ##### 示例 2: 统计每行字符数并附加到原行后面显示 如果想要计算每行的长度并将该信息追加至对应行末尾展示出来的话,可以用这个技巧完成任务: ```bash $ awk '{print $0, length($0)}' example_file ``` ##### 示例 3: 访问内置变量 利用一些预定义好的特殊变量可以帮助更灵活地控制程序行为。比如通过访问 NF (number of fields),我们可以轻松获取当前行有多少个字段; 或者借助 NR (number record), 可知目前正处理的是第几条记录等等。 #### 注意事项 当需要清理系统的交换空间时,请勿混淆与上述提到有关于 `awk` 功能无关的操作指令。例如下面这条语句是用来关闭再重新开启所有的swap设备,并不是用来做数据分析工作的: ```bash # swapoff -a && swapon -a ``` 这应该单独作为维护系统性能的一部分来考虑[^5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

愿与狸花过一生

盛时常作衰时想 上场当念下场时

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值