Linux 练习 - 文本处理三剑客之AWK

本文通过8个实例介绍了如何利用AWK在Linux环境中处理文本数据,包括提取主机名、统计文件系统类型、单词出现次数、提取数字、找出整数范围、DOS攻击防护、FQDN计数排序以及按inode聚合数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、文件 ip_list.txt 如下格式,请提取 ”.solin.com” 前面的主机名部分并写入到回到该文件中

1 blog.solin.com

2 www.solin.com

999 study.solin.com

[root@centos7 ~]# awk -F "[ .]" '{print $2}' ip_list.txt >> ip_list.txt
2、统计 /etc/fstab 文件中每个文件系统类型出现的次数
[root@centos7 ~]# awk '/^UUID/{fs[$3]++}END{for(i in fs){print i,fs[i]}}' /etc/fstab
swap 1
xfs 2
3、统计 /etc/fstab 文件中每个单词出现的次数
[root@centos7 ~]# awk -F "[)( /=',-]" '{for(i=1;i<=NF;i++){if($i ~ "\\<[[:alpha:]]+\\>"){word[$i]++}}}END{for(i in word){print word[i],i}}' /etc/fstab  | sort -nr[root@centos7 ~]# awk -F "[)( /=',-]" '{for(i=1;i<=NF;i++){if($i ~ "\\y[[:alpha:]]+\\y"){word[$i]++}}}END{for(i in word){print word[i],i}}' /etc/fstab  | sort -nr
4、提取出字符串 Yd$C@M05MB%9&Bdh7dq+YVixp3vpw 中的所有数字
[root@centos7 ~]# echo "Yd$C@M05MB%9&Bdh7dq+YVixp3vpw" | awk '{gsub(/[^0-9]/,"",$0);print $0}'
05973
5、有一文件记录了 1-100000 之间随机的整数共 5000 个,存储的格式 100,50,35,89… 请取出其中
<think>嗯,用户想学习或练习Linux下的awk用法,需要提供示例和教程。首先,我得回忆一下awk的基本概念和工作原理。记得awk是一种文本处理工具,逐行处理数据,按字段进行操作。用户可能需要从基础开始,逐步深入。 然后,看看用户给的参考引用。引用[1]提到awk的工作原理,引用[2]展示了一个打印字段的例子,引用[3]则是一些更复杂的应用,比如处理ifconfig的输出。这些例子应该可以拆解成不同的练习题目,帮助用户逐步掌握。 接下来,得确保回答结构清晰。先介绍awk的基本用法,再提供由浅入深的示例。比如,从打印特定字段开始,到条件过滤、计算统计,再到文本处理的高级技巧,比如处理多行记录或正则表达式匹配。 还要注意用户的练习需求,可能需要实际问题来练习。例如,处理学生成绩表、日志分析、系统信息提取等,这些实际场景能帮助用户巩固知识。同时,结合参考中的例子,比如处理ifconfig的输出,可以设计相应的练习题。 另外,用户提到的示例中的多行处理(使用RS变量)和字段处理(FS变量)也很重要。需要详细说明这些概念,并提供示例代码和解释,确保用户理解如何修改记录分隔符和字段分隔符。 最后,生成相关问题,帮助用户进一步探索awk的高级功能,比如性能优化、复杂文本处理等。还要确保所有命令和示例符合LaTeX格式要求,行内公式用$...$,独立公式用$$...$$,并且正确引用来源。</think>### Linux awk 基础与进阶练习指南 ### 一、awk 基础用法 1. **核心原理** awk 按记录(默认行)处理文本,每条记录自动分割为字段(默认空格分隔),支持模式匹配与动作执行[^1]。基本结构: ```bash awk 'pattern {action}' file ``` 2. **字段操作示例** ```bash awk '{print $1, $3}' data.txt # 输出第1和第3列[^2] awk -F: '{print $1,$6}' /etc/passwd # 使用冒号分隔符 ``` ### 二、进阶练习示例 #### 1. 条件过滤 ```bash # 筛选成绩大于80的学生 awk '$3 > 80 {print $1, $3}' scores.txt # 排除空行 awk '!/^$/ {print}' log.txt ``` #### 2. 数值计算 ```bash # 计算文件总行数 awk 'END {print NR}' data.txt # 求第2列平均值 awk '{sum+=$2} END {print sum/NR}' numbers.txt ``` #### 3. 多字段处理 ```bash # 组合字段输出 awk '{print "用户:" $1, "UID:" $3}' /etc/passwd # 字段重排(交换第2、3列) awk '{tmp=$2; $2=$3; $3=tmp; print}' data.txt ``` #### 4. 系统信息提取(参考[^3]) ```bash # 获取所有IPv4地址(排除127) ifconfig | awk '/inet / && !($2 ~ /^127/) {print $2}' # 统计TCP连接数 netstat -ant | awk '$6 == "ESTABLISHED" {count++} END {print count}' ``` ### 三、高级技巧 1. **多行记录处理** 修改记录分隔符 `RS`: ```bash awk 'BEGIN{RS=""; FS="\n"} {print $2}' multi.txt # 处理段落格式数据 ``` 2. **数组应用** ```bash # 统计词频 awk '{for(i=1;i<=NF;i++) words[$i]++} END {for(w in words) print w, words[w]}' text.txt ``` 3. **正则表达式匹配** ```bash # 匹配带版本号的行 awk '/[0-9]+\.[0-9]+\.[0-9]+/ {print}' version.log ``` ### 四、实践项目 1. **日志分析** 分析 Nginx 访问日志: ```bash awk '$9 == 404 {print $7}' access.log | sort | uniq -c | sort -nr ``` 2. **数据报表生成** ```bash awk 'BEGIN{print "姓名\t总分"} {sum=$2+$3+$4; print $1 "\t" sum}' scores.txt ``` 3. **系统监控脚本** ```bash df | awk '$5 > 80 {print "警告: " $1 " 使用率 " $5}' ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值