shell脚本之正则表达式和文本处理器_shell正则提取中文-优快云博客

本文链接：https://blog.youkuaiyun.com/aaa1414124211/article/details/109322071

本文介绍了Shell脚本中正则表达式的定义、组成和层次，详细讲解了基础正则表达式元字符及扩展正则表达式。同时，深入探讨了文本处理工具sed的工作原理和用法，以及awk的使用示例，包括sort、uniq和tr命令的常见选项和应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本章目录

一:正则表达式
二:基础正则表达式元字符
- 2.1:扩展正则表达式
三 :文件处理器
四：awk

一:正则表达式

1.1:正则表达式定义

●正则表达式，又称正规表达式、常规表达式
●使用字符串来描述、匹配一系列符合某个规则的字符串

1.2:正则表达式组成

◆普通字符
大小写字母、数字、标点符号以及一些其他符号
◆元字符
在正则表达式中具有特殊意义的专用字符

1.3:正则表达式层次

●基础正则表达式
●扩展正则表达式

Linux中文本处理工具
●grep
●egrep
●sed
●awk

grep，sed，awk被称为文本处理工具的“三剑客”

二:基础正则表达式元字符

■基础正则表达式是常用的正则表达式部分
■除了普通字符外，常见以下元字符

如图：

  \：转义字符，\!、\n
  ^:匹配字符串开始的位置
    ^wh  ^che ^#
  $:匹配字符串结束的位置
    word$
  .:匹配除\n、\r之外的任意一个字符
    go.d  g..d
  *:匹配前面子表达式0次或多次
    cho*d  cho.*d
  [list]:匹配list表中的一个字符
    so[lic]d  [abc]  [a-z]  [0-9]
  [^list]:匹配任意不在list表中的一个字符
    [^a-z]  [^0-9]  [^A-Z0-9]
  \{n,m\}:匹配前面的子表达式n到m次，\{n\}  \{n,\}  \{n,m\}三种格式
    [0-9]\{2\}    [0-9]\{2\}      [a-z]\{2,3\}

2.1:扩展正则表达式

■扩展正则表达式是对基础正则表达式的扩充与深化

扩展元字符：

在这里插入图片描述

三 :文件处理器

3.1：sed工具概述

■文本处理工具，读取文本内容，根据指定的条件进行处理，如删除、替换、添加等
■可在无交互的情况下实现相当复杂的文本处理操作
■被广泛应用于Shell脚本，以完成自动化处理任务
■工作原理
读取——执行——显示

3.2: sed的命令格式

sed命令格式

在这里插入图片描述

常用选项

在这里插入图片描述

编辑命令格式

在这里插入图片描述

3.3 : sed用法示例

在这里插入图片描述

 ● sed -n ‘p’ 123.txt ##输出##
 ●sed -n ‘p;n’ 123.txt ##输出奇数行##
 ●sed -n ‘n;p’ 123.txt ##输出偶数行##
 ●sed -n ‘3p’ 123.txt ##输出第3行##
 ●sed -n ‘3,5p’ 123.txt ##输出第3-5行##
 ●sed -n ‘1,5{p;n}’ 123.txt ##输出第1-5行的奇数行##
 ●sed -n ‘10,$ {n;p}’ 123.txt ##输出第10行至文件尾的偶数行##
 ●sed -n ‘/the/p’ 123.txt ##输出包含the的奇数行##
 ●sed -n ‘4,/the/p’ 123.txt ##输出从第4行至第一个包含the的行##
 ●sed -n ‘/the/=’ 123.txt ##输出包含the的行所在的行号，等于（=）用来输出行号##
 ●sed -n ‘/[0-9]$/p’ 123.txt ##输出以数字结尾的行##
 ●sed -n ‘/^PI/p’ 123.txt ##输出以PI开头的行##
 ●sed -n ‘/<wood>/p’ 123.txt ##输出包含单词wood的行，<、>代表单词边界##

四：awk

■awk 选项 ‘模式或条件 {编辑指令}’ 文件 1 文件 2 … //过滤并输出文件中符合条件的内容
■awk -f 脚本文件文件 1 文件 2 … //从脚本中调用编辑指令,过滤并输出内容
■awk 包含几个特殊的内建变量（可直接用）如下所示：
●FS：指定每行文本的字段分隔符，默认为空格或制表位。
●NF：当前处理的行的字段个数。
●NR：当前处理的行的行号（序数）。
●n：当前处理行的第 n 个字段（第 n 列）。
●FILENAME：被处理的文件名。
●RS：数据记录分隔，默认为\n，即每行为一条记录。

4.1：用法示例

按行输出文本

 ●awk ‘{print}’ test.txt //输出所有内容,等同于 cat test.txt
 ●awk ‘{print KaTeX parse error: Expected 'EOF', got '}' at position 2: 0}̲' test.txt //输出…/{print}’ /etc/passwd //输出以 nologin 结尾的行
  ●awk 'BEGIN {x=0};//bin/bash
   ●awk ‘BEGIN{RS=""};END{print NR}’ /etc/squid/squid.conf
 //统计以空行分隔的文本段落数

按字段输出文本

●awk ‘{print $3}’ test.txt //输出每行中(以空格或制表位分隔)的第 3 个字段
 ●awk ‘{print $1,$3}’ test.txt //输出每行中的第 1、3 个字段
 ●awk -F “:” ‘$2==""{print}’ /etc/shadow //输出密码为空的用户的shadow 记录
 ●awk ‘BEGIN {FS=":"}; $2==""{print}’ /etc/shadow
//输出密码为空的用户的shadow 记录
 ●awk -F “:” ‘$7~"/bash"{print $1}’ /etc/passwd
 //输出以冒号分隔且第 7 个字段中包含/bash 的行的第 1 个字段
 ●awk ‘($1~“nfs”)&&(NF==8){print $1,$2}’ /etc/services
//输出包含 8 个字段且第 1 个字段中包含 nfs 的行的第 1、2 个字段
●awk ‘BEGIN {while (“w” | getline) n++ ; {print n-2}}’
 //调用w 命令,并用来统计在线用户数
 ●awk ‘BEGIN { “hostname” | getline ; print $0}’
 //调用hostname,并输出当前的主机名

4.2：sort

■sort [选项] 参数
■常用的选项
●-f：忽略大小写；
●-b：忽略每行前面的空格；
●-M：按照月份进行排序；
●-n：按照数字进行排序；
●-r：反向排序；
●-u：等同于 uniq，表示相同的数据仅显示一行；
●-t：指定分隔符，默认使用[Tab]键分隔；
●-o <输出文件>：将排序后的结果转存至指定文件；
●-k：指定排序区域。

■示例
●[root@localhost ~]# sort /etc/passwd #将/etc/passwd 文件中的账号进行排序#
●[root@localhost ~]# sort -t ‘:’ -rk 3 /etc/passwd #将/etc/passwd 文件中第三列进行反向排序#
●[root@localhost ~]# sort -t ‘:’ -k 3 /etc/passwd -o user.txt
●[root@localhost ~]# cat user.txt #将/etc/passwd 文件中第三列进行排序，并将输出内容保存至 user.txt 文件中#

4.3：uniq

■命令语法格式
uniq [选项] 参数
■常用选项
●-c：进行计数；
●-d：仅显示重复行；
●-u：仅显示出现一次的行

■示例1
●[root@localhost ~]# cat testfile
●[root@localhost ~]# uniq testfile #删除 testfile 文件中的重复行#
■示例2
●[root@localhost ~]# uniq -c testfile #删除 testfile 文件中的重复行，并在行首显示该行重复出现的次数#
■示例3
●[root@localhost ~]# uniq -d testfile #查找 testfile 文件中的重复行#

4.4：tr

■tr 具体的命令语法格式
tr [选项] [参数]
■常用选项
●-c：取代所有不属于第一字符集的字符；
●-d：删除所有属于第一字符集的字符；
●-s：把连续重复的字符以单独一个字符表示；
●-t：先删除第一字符集较第二字符集多出的字符。

■示例1
●[root@localhost ~]# echo “KGC” | tr ‘A-Z’ ‘a-z’
kgc ##将输入字符由大写转换为小写##
●[root@localhost ~]# echo “thissss is a text linnnnnnne.” | tr -s ‘sn’
this is a text line. ##压缩输入中重复的字符##
●[root@localhost ~]# echo ‘hello world’ | tr -d ‘od’
hell wrl ##删除字符串中某些字符##