本章目录
一:正则表达式
1.1:正则表达式定义
●正则表达式,又称正规表达式、常规表达式
●使用字符串来描述、匹配一系列符合某个规则的字符串
1.2:正则表达式组成
◆普通字符
大小写字母、数字、标点符号以及一些其他符号
◆元字符
在正则表达式中具有特殊意义的专用字符
1.3:正则表达式层次
●基础正则表达式
●扩展正则表达式
Linux中文本处理工具
●grep
●egrep
●sed
●awk
grep,sed,awk被称为文本处理工具的“三剑客”
二:基础正则表达式元字符
■基础正则表达式是常用的正则表达式部分
■除了普通字符外,常见以下元字符
如图:
\:转义字符,\!、\n
^:匹配字符串开始的位置
^wh ^che ^#
$:匹配字符串结束的位置
word$
.:匹配除\n、\r之外的任意一个字符
go.d g..d
*:匹配前面子表达式0次或多次
cho*d cho.*d
[list]:匹配list表中的一个字符
so[lic]d [abc] [a-z] [0-9]
[^list]:匹配任意不在list表中的一个字符
[^a-z] [^0-9] [^A-Z0-9]
\{n,m\}:匹配前面的子表达式n到m次,\{n\} \{n,\} \{n,m\}三种格式
[0-9]\{2\} [0-9]\{2\} [a-z]\{2,3\}
2.1:扩展正则表达式
■扩展正则表达式是对基础正则表达式的扩充与深化
扩展元字符:
三 :文件处理器
3.1:sed工具概述
■文本处理工具,读取文本内容,根据指定的条件进行处理,如删除、替换、添加等
■可在无交互的情况下实现相当复杂的文本处理操作
■被广泛应用于Shell脚本,以完成自动化处理任务
■工作原理
读取——执行——显示
3.2: sed的命令格式
- sed命令格式
- 常用选项
- 编辑命令格式
3.3 : sed用法示例
● sed -n ‘p’ 123.txt ##输出##
●sed -n ‘p;n’ 123.txt ##输出奇数行##
●sed -n ‘n;p’ 123.txt ##输出偶数行##
●sed -n ‘3p’ 123.txt ##输出第3行##
●sed -n ‘3,5p’ 123.txt ##输出第3-5行##
●sed -n ‘1,5{p;n}’ 123.txt ##输出第1-5行的奇数行##
●sed -n ‘10,$ {n;p}’ 123.txt ##输出第10行至文件尾的偶数行##
●sed -n ‘/the/p’ 123.txt ##输出包含the的奇数行##
●sed -n ‘4,/the/p’ 123.txt ##输出从第4行至第一个包含the的行##
●sed -n ‘/the/=’ 123.txt ##输出包含the的行所在的行号,等于(=)用来输出行号##
●sed -n ‘/[0-9]$/p’ 123.txt ##输出以数字结尾的行##
●sed -n ‘/^PI/p’ 123.txt ##输出以PI开头的行##
●sed -n ‘/<wood>/p’ 123.txt ##输出包含单词wood的行,<、>代表单词边界##
四:awk
■awk 选项 ‘模式或条件 {编辑指令}’ 文件 1 文件 2 … //过滤并输出文件中符合条件的内容
■awk -f 脚本文件 文件 1 文件 2 … //从脚本中调用编辑指令,过滤并输出内容
■awk 包含几个特殊的内建变量(可直接用)如下所示:
●FS:指定每行文本的字段分隔符,默认为空格或制表位。
●NF:当前处理的行的字段个数。
●NR:当前处理的行的行号(序数)。
●n:当前处理行的第 n 个字段(第 n 列)。
●FILENAME:被处理的文件名。
●RS:数据记录分隔,默认为\n,即每行为一条记录。
4.1:用法示例
按行输出文本
●awk ‘{print}’ test.txt //输出所有内容,等同于 cat test.txt
●awk ‘{print KaTeX parse error: Expected 'EOF', got '}' at position 2: 0}̲' test.txt //输出…/{print}’ /etc/passwd //输出以 nologin 结尾的行
●awk 'BEGIN {x=0};//bin/bash
●awk ‘BEGIN{RS=""};END{print NR}’ /etc/squid/squid.conf
//统计以空行分隔的文本段落数
按字段输出文本
●awk ‘{print $3}’ test.txt //输出每行中(以空格或制表位分隔)的第 3 个字段
●awk ‘{print $1,$3}’ test.txt //输出每行中的第 1、3 个字段
●awk -F “:” ‘$2==""{print}’ /etc/shadow //输出密码为空的用户的shadow 记录
●awk ‘BEGIN {FS=":"}; $2==""{print}’ /etc/shadow
//输出密码为空的用户的shadow 记录
●awk -F “:” ‘$7~"/bash"{print $1}’ /etc/passwd
//输出以冒号分隔且第 7 个字段中包含/bash 的行的第 1 个字段
●awk ‘($1~“nfs”)&&(NF==8){print $1,$2}’ /etc/services
//输出包含 8 个字段且第 1 个字段中包含 nfs 的行的第 1、2 个字段
●awk ‘BEGIN {while (“w” | getline) n++ ; {print n-2}}’
//调用w 命令,并用来统计在线用户数
●awk ‘BEGIN { “hostname” | getline ; print $0}’
//调用hostname,并输出当前的主机名
4.2:sort
■sort [选项] 参数
■常用的选项
●-f:忽略大小写;
●-b:忽略每行前面的空格;
●-M:按照月份进行排序;
●-n:按照数字进行排序;
●-r:反向排序;
●-u:等同于 uniq,表示相同的数据仅显示一行;
●-t:指定分隔符,默认使用[Tab]键分隔;
●-o <输出文件>:将排序后的结果转存至指定文件;
●-k:指定排序区域。
■示例
●[root@localhost ~]# sort /etc/passwd #将/etc/passwd 文件中的账号进行排序#
●[root@localhost ~]# sort -t ‘:’ -rk 3 /etc/passwd #将/etc/passwd 文件中第三列进行反向排序#
●[root@localhost ~]# sort -t ‘:’ -k 3 /etc/passwd -o user.txt
●[root@localhost ~]# cat user.txt #将/etc/passwd 文件中第三列进行排序,并将输出内容保存至 user.txt 文件中#
4.3:uniq
■命令语法格式
uniq [选项] 参数
■常用选项
●-c:进行计数;
●-d:仅显示重复行;
●-u:仅显示出现一次的行
■示例1
●[root@localhost ~]# cat testfile
●[root@localhost ~]# uniq testfile #删除 testfile 文件中的重复行#
■示例2
●[root@localhost ~]# uniq -c testfile #删除 testfile 文件中的重复行,并在行首显示该行重复出现的次数#
■示例3
●[root@localhost ~]# uniq -d testfile #查找 testfile 文件中的重复行#
4.4:tr
■tr 具体的命令语法格式
tr [选项] [参数]
■常用选项
●-c:取代所有不属于第一字符集的字符;
●-d:删除所有属于第一字符集的字符;
●-s:把连续重复的字符以单独一个字符表示;
●-t:先删除第一字符集较第二字符集多出的字符。
■示例1
●[root@localhost ~]# echo “KGC” | tr ‘A-Z’ ‘a-z’
kgc ##将输入字符由大写转换为小写##
●[root@localhost ~]# echo “thissss is a text linnnnnnne.” | tr -s ‘sn’
this is a text line. ##压缩输入中重复的字符##
●[root@localhost ~]# echo ‘hello world’ | tr -d ‘od’
hell wrl ##删除字符串中某些字符##