awk 使用示例 END

原创于 2025-01-19 07:27:42 发布 · 558 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

linux 专栏收录该内容

34 篇文章

订阅专栏

这个 awk 命令是一个复杂的数据处理脚本，用于计算和汇总数据。让我详细解释这个命令的各个部分：

命令结构：

awk '{ 
  sum[$1] += $2; 
  count[$1]++ 
} 
END { 
  for (key in sum) { 
    print key, count[key], sum[key]/count[key], sum[key]
  } 
}'

功能：
这个命令读取输入数据，按第一列分组，计算第二列的总和和平均值，最后输出每组的统计结果。
详细解析：

a. 主处理块 { sum[$1] += $2; count[$1]++ }:
- sum[$1] += $2: 将每行的第二列值加到以第一列为键的 sum 数组中。
- count[$1]++: 增加以第一列为键的 count 数组的计数。
b. END 块 END { ... }:
在处理完所有输入后执行。

c. 结果输出 for (key in sum) { ... }:
- 遍历 sum 数组中的所有键。
- 对每个键，打印以下信息：
  - 键值（第一列的唯一值）
  - 该键的计数（出现次数）
  - 该键对应值的平均值（总和除以计数）
  - 该键对应值的总和
工作原理：
- 读取每一行输入。
- 使用第一列作为键，累加第二列的值，并计数。
- 处理完所有输入后，计算并输出每个键的统计信息。

示例：
假设有一个名为 data.txt 的文件，内容如下：

A 10
B 20
A 30
C 15
B 25
A 5

执行命令：

awk '{ sum[$1] += $2; count[$1]++ } END { for (key in sum) { print key, count[key], sum[key]/count[key], sum[key] } }' data.txt

可能的输出：

A 3 15 45
B 2 22.5 45
C 1 15 15

输出解释：
- 每行包含四个值：组（键），计数，平均值，总和
- 例如，A 组出现 3 次，平均值是 15，总和是 45
应用场景：
- 日志分析：按类别汇总日志条目
- 金融数据：计算不同类别的交易总额和平均值
- 性能监控：汇总不同服务器或进程的性能指标
注意事项：
- 输入数据需要至少有两列
- 第二列应该是数值，否则结果可能不正确
- 大数据集可能会消耗大量内存，因为它在内存中保存所有唯一键的数据
可能的扩展：
- 添加排序：| sort -k3 -nr 可以按平均值降序排列结果
- 限制输出：| head -n 5 可以只显示前 5 行结果

总结：
这个 awk 命令是一个强大的数据汇总工具，能够快速计算分组数据的统计信息。它在处理日志文件、分析数值数据和生成报告等任务中非常有用。理解和使用这样的命令可以大大提高数据处理的效率。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。