14、正则表达式与日志处理全解析

kotlin6android

于 2025-12-12 11:01:58 发布

阅读量2

点赞数

CC 4.0 BY-SA版权

分类专栏：精通Linux脚本艺术文章标签：正则表达式 BRE ERE

本文链接：https://blog.youkuaiyun.com/kotlin6android/article/details/155895050

精通Linux脚本艺术专栏收录该内容

16 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

正则表达式与日志处理全解析

正则表达式在文本处理中扮演着至关重要的角色，它能帮助我们高效地匹配、查找和替换文本。同时，AWK 作为一种强大的文本处理工具，在处理日志文件时也发挥着重要作用。下面将详细介绍正则表达式的 BRE 和 ERE 模式，以及如何使用 AWK 处理日志文件。

定义 BRE 模式

正则表达式模式默认区分大小写，定义 BRE 模式时，可以使用如下命令：

$ echo "Welcome to shell scripting" | sed -n '/shell/p'
$ echo "Welcome to shell scripting" | awk '/shell/{print $0}'

若要匹配特殊字符 .*[]^${}\+?|() ，需要使用反斜杠进行转义。

锚定字符

锚定字符用于匹配行首或行尾，有两个锚定字符：脱字符 ^ 和美元符号 $ 。

脱字符 ^ 用于匹配行首，示例如下：

$ echo "Welcome to shell scripting" | awk '/^Welcome/{print $0}'
$ echo "SHELL scripting" | awk '/^Welcome/{print $0}'
$ echo "Welcome to shell scripting" | sed -n '/^Welcome/p'

如果使用 AWK 搜索脱字符 ^ ，需要用反斜杠转义；而使用 sed 则不需要，示例如下：

$ echo "Welcome ^ is a test" | awk '/\^/{print $0}'
$ echo "Welcome ^ to shell scripting" | sed -n '/^/p'

美元符号 $ 用于匹配行尾，示例如下：

$ echo "Welcome to shell scripting" | awk '/scripting$/{print $0}'
$ echo "Welcome to shell scripting" | sed -n '/scripting$/p'

可以在同一模式中同时使用 ^ 和 $ 来指定文本，还能用于查找并删除空行，示例如下：

$ awk '!/^$/{print $0}' myfile

该命令中的感叹号 ! 是取反字符，用于取反后面的模式。此模式搜索 ^$ ，即行首和行尾之间没有内容的行（空行），然后用 ! 取反得到非空行。

点字符

点字符 . 可以匹配除换行符 \n 之外的任意字符，示例如下：

$ awk '/.sh/{print $0}' myfile
$ sed -n '/.sh/p' myfile

此模式匹配包含 sh 且前面有任意文本的行。

字符类

字符类通过方括号 [] 传递要匹配的字符，示例如下：

$ awk '/[mbr]ash/{print $0}' myfile
$ sed -n '/[mbr]ash/p' myfile

字符类 [mbr] 匹配包含 m 、 b 或 r 后跟 ash 的行。还可以用字符类匹配大小写字母，示例如下：

$ echo "Welcome to shell scripting" | awk '/^[Ww]elcome/{print $0}'
$ echo "welcome to shell scripting" | awk '/^[Ww]elcome/{print $0}'

使用脱字符 ^ 可以对字符类取反，示例如下：

$ awk '/[^br]ash/{print $0}' myfile

此模式匹配包含 ash 且不以 b 或 r 开头的行。

字符范围

可以在方括号内指定字符范围，示例如下：

$ awk '/[a-m]ash/{print $0}' myfile
$ sed -n '/[a-m]ash/p' myfile

字符范围 [a-m] 表示从 a 到 m 的字符。还可以使用数字范围，示例如下：

$ awk '/[0-9]/'

也能在同一方括号内写多个范围，示例如下：

$ awk '/[d-hm-z]ash/{print $0}' myfile
$ sed -n '/[d-hm-z]ash/p' myfile

还可以使用 [a-zA-Z] 选择所有大小写字母。

特殊字符类

ERE 引擎提供了一些预定义的字符类，如下表所示：
| 字符类 | 描述 |
| ---- | ---- |
| [[:alpha:]] | 匹配任意字母字符 |
| [[:upper:]] | 仅匹配 A - Z 的大写字母 |
| [[:lower:]] | 仅匹配 a - z 的小写字母 |
| [[:alnum:]] | 匹配 0 - 9、A - Z 或 a - z |
| [[:blank:]] | 仅匹配空格或制表符 |
| [[:space:]] | 匹配任意空白字符：空格、制表符、回车符 |
| [[:digit:]] | 匹配 0 到 9 的数字 |
| [[:print:]] | 匹配任意可打印字符 |
| [[:punct:]] | 匹配任意标点符号 |

示例如下：

$ awk '/[[:upper:]]/{print $0}' myfile
$ sed -n '/[[:upper:]]/p' myfile

此命令可以匹配包含大写字母的行。

星号

星号 * 用于匹配前面的字符或字符类零次或多次，示例如下：

$ echo "Checking colors" | awk '/colou*rs/{print $0}'
$ echo "Checking colours" | awk '/colou*rs/{print $0}'

无论字符 u 是否存在，都能匹配该模式。还可以将星号与点字符结合使用，匹配任意数量的字符，示例如下：

$ awk '/this.*/{print $0}' myfile
$ sed -n '/ this.*/p' myfile

也可以将星号与字符类结合使用，示例如下：

$ echo "toot" | awk '/t[aeor]*t/{print $0}'
$ echo "tent" | awk '/t[aeor]*t/{print $0}'
$ echo "tart" | awk '/t[aeor]*t/{print $0}'

定义 ERE 模式

ERE 模式比 BRE 模式更强大，ERE 引擎除了支持 BRE 模式外，还理解以下模式：
- 问号 ?
- 加号 +
- 花括号 {}
- 管道符 |
- 表达式分组 ()

默认情况下，AWK 支持 ERE 模式，而 sed 需要使用 -r 选项来理解这些模式。

问号

问号 ? 匹配前面的字符或字符类零次或一次，示例如下：

$ echo "tt" | awk '/to?t/{print $0}'
$ echo "tot" | awk '/to?t/{print $0}'
$ echo "toot" | awk '/to?t/{print $0}'
$ echo "tt" | sed -r -n '/to?t/p'
$ echo "tot" | sed -r -n '/to?t/p'
$ echo "toot" | sed -r -n '/to?t/p'

也可以将问号与字符类结合使用，示例如下：

$ echo "tt" | awk '/t[oa]?t/{print $0}'
$ echo "tot" | awk '/t[oa]?t/{print $0}'
$ echo "toot" | awk '/t[oa]?t/{print $0}'
$ echo "tt" | sed -r -n '/t[oa]?t/p'
$ echo "tot" | sed -r -n '/t[oa]?t/p'
$ echo "toot" | sed -r -n '/t[oa]?t/p'

加号

加号 + 匹配前面的字符或字符类一次或多次，示例如下：

$ echo "tt" | awk '/to+t/{print $0}'
$ echo "tot" | awk '/to+t/{print $0}'
$ echo "toot" | awk '/to+t/{print $0}'
$ echo "tt" | sed -r -n '/to+t/p'
$ echo "tot" | sed -r -n '/to+t/p'
$ echo "toot" | sed -r -n '/to+t/p'

也可以将加号与字符类结合使用，示例如下：

$ echo "tt" | awk '/t[oa]+t/{print $0}'
$ echo "tot" | awk '/t[oa]+t/{print $0}'
$ echo "toot" | awk '/t[oa]+t/{print $0}'
$ echo "tt" | sed -r -n '/t[oa]+t/p'
$ echo "tot" | sed -r -n '/t[oa]+t/p'
$ echo "toot" | sed -r -n '/t[oa]+t/p'

花括号

花括号 {} 定义前面的字符或字符类的出现次数，示例如下：

$ echo "tt" | awk '/to{1}t/{print $0}'
$ echo "tot" | awk '/to{1}t/{print $0}'
$ echo "toot" | awk '/to{1}t/{print $0}'
$ echo "tt" | sed -r -n '/to{1}t/p'
$ echo "tot" | sed -r -n '/to{1}t/p'
$ echo "toot" | sed -r -n '/to{1}t/p'

可以在花括号内指定范围，示例如下：

$ echo "toot" | awk '/to{1,2}t/{print $0}'
$ echo "toot" | sed -r -n '/to{1,2}t/p'

也可以将花括号与字符类结合使用，示例如下：

$ echo "tt" | awk '/t[oa]{1}t/{print $0}'
$ echo "tot" | awk '/t[oa]{1}t/{print $0}'
$ echo "toot" | awk '/t[oa]{1}t/{print $0}'
$ echo "tt" | sed -r -n '/t[oa]{1}t/p'
$ echo "tot" | sed -r -n '/t[oa]{1}t/p'
$ echo "toot" | sed -r -n '/t[oa]{1}t/p'

管道符

管道符 | 告诉正则表达式引擎匹配任意一个传递的字符串，示例如下：

$ echo "welcome to shell scripting" | awk '/Linux|bash|shell/{print $0}'
$ echo "welcome to bash scripting" | awk '/Linux|bash|shell/{print $0}'
$ echo "welcome to Linux scripting" | awk '/Linux|bash|shell/{print $0}'
$ echo "welcome to shell scripting" | sed -r -n '/Linux|bash|shell/p'
$ echo "welcome to bash scripting" | sed -r -n '/Linux|bash|shell/p'
$ echo "welcome to Linux scripting" | sed -r -n '/Linux|bash|shell/p'

表达式分组

可以使用括号 () 对字符或单词进行分组，示例如下：

$ echo "welcome to shell scripting" | awk '/(shell scripting)/{print $0}'
$ echo "welcome to bash scripting" | awk '/(shell scripting)/{print $0}'
$ echo "welcome to shell scripting" | sed -r -n '/(shell scripting)/p'
$ echo "welcome to bash scripting" | sed -r -n '/(shell scripting)/p'

分组的好处在于可以与 ERE 字符结合使用，示例如下：

$ echo "welcome to shell scripting" | awk '/(bash scripting)?/{print $0}'
$ echo "welcome to shell scripting" | awk '/(bash scripting)+/{print $0}'
$ echo "welcome to shell scripting" | sed -r -n '/(bash scripting)?/p'
$ echo "welcome to shell scripting" | sed -r -n '/(bash scripting)+/p'

使用 grep

grep 是一个强大的工具，默认支持 BRE 模式，若要使用 ERE 模式，需要使用 -E 选项。示例如下：

$ grep '.sh' myfile
$ grep -E 'to+' myfile

总结

通过上述内容，我们学习了正则表达式的 BRE 和 ERE 模式的定义方法，以及如何在 sed、AWK 和 grep 中使用这些模式。特殊字符类让匹配字符集变得更加容易，强大的 ERE 模式和表达式分组功能进一步提升了文本处理的能力。

AWK 处理日志文件

AWK 在过滤日志文件数据方面表现出色，下面将介绍如何使用 AWK 处理 Apache HTTPD 服务器的访问日志文件。

HTTPD 日志文件格式

Apache HTTPD 服务器的访问日志文件的位置可以在 httpd.conf 文件中控制，Debian 系统的默认日志文件位置为 /var/log/apache2/access.log 。可以使用 tail 命令查看日志文件的末尾内容，示例如下：

$ tail /var/log/apache2/access.log

日志文件以空格分隔，各字段的含义如下表所示：
| 字段 | 用途 |
| ---- | ---- |
| 1 | 客户端 IP 地址 |
| 2 | 客户端身份（由 RFC 1413 和 identd 客户端定义，除非启用 IdentityCheck，否则该值为连字符） |
| 3 | 用户认证的用户 ID（如果未启用认证，该值为连字符） |
| 4 | 请求的日期和时间（格式为 day/month/year:hour:minute:second offset ） |
| 5 | 实际请求和方法 |
| 6 | 返回状态码（如 200 或 404） |
| 7 | 文件大小（字节） |

由于日期、时间和时区是一个字段，且字段内有额外空格，若需要打印完整的时间字段，需要同时打印 $4 和 $5 ，示例如下：

$ awk ' { print $4,$5 } ' /var/log/apache2/access.log

通过以上内容，我们不仅掌握了正则表达式的各种模式，还学会了如何使用 AWK 处理日志文件，这些技能将在日常的文本处理和系统管理工作中发挥重要作用。

正则表达式与日志处理全解析

显示 Web 日志数据

在了解了 HTTPD 日志文件格式后，我们可以使用 AWK 来显示日志中的特定数据。例如，我们可以显示每个请求的日期和时间：

$ awk '{ print $4,$5 }' /var/log/apache2/access.log

这个命令会逐行读取日志文件，并打印出每行的第 4 个和第 5 个字段，即请求的日期和时间。

如果我们想要统计每个 IP 地址的访问次数，可以使用以下代码：

$ awk '{ ips[$1]++ } END { for (ip in ips) print ip, ips[ip] }' /var/log/apache2/access.log

这个代码的执行流程如下：
1. { ips[$1]++ } ：在读取每一行时，将 IP 地址（第 1 个字段）作为索引，对对应的计数进行加 1 操作。
2. END { for (ip in ips) print ip, ips[ip] } ：在处理完所有行后，遍历存储 IP 地址和计数的数组 ips ，并打印出每个 IP 地址及其访问次数。

mermaid 流程图如下：

graph TD;
    A[开始读取日志文件] --> B[读取一行日志];
    B --> C{是否还有日志行};
    C -- 是 --> D{提取 IP 地址};
    D --> E{更新 IP 地址计数};
    E --> B;
    C -- 否 --> F[遍历 IP 地址计数数组];
    F --> G[打印 IP 地址和计数];
    G --> H[结束];

显示排名最高的客户端 IP 地址

为了找出访问次数最多的客户端 IP 地址，我们可以结合 AWK 和其他命令进行处理。以下是具体步骤：
1. 使用 AWK 统计每个 IP 地址的访问次数：

$ awk '{ ips[$1]++ } END { for (ip in ips) print ip, ips[ip] }' /var/log/apache2/access.log

将输出结果通过管道传递给 sort 命令，按照访问次数进行降序排序：

$ awk '{ ips[$1]++ } END { for (ip in ips) print ip, ips[ip] }' /var/log/apache2/access.log | sort -k2 -nr

-k2 表示按照第 2 个字段进行排序， -nr 表示以数字形式进行降序排序。
3. 使用 head 命令取前几个排名最高的 IP 地址：

$ awk '{ ips[$1]++ } END { for (ip in ips) print ip, ips[ip] }' /var/log/apache2/access.log | sort -k2 -nr | head -n 5

-n 5 表示取前 5 行。

显示浏览器数据

日志文件的请求字段（第 5 个字段）通常包含了浏览器信息。我们可以使用正则表达式来提取这些信息。例如，提取包含 Chrome 浏览器的请求：

$ awk '$5 ~ /Chrome/ { print $0 }' /var/log/apache2/access.log

这个命令会检查每行的第 5 个字段是否包含 Chrome 字符串，如果包含则打印整行。

处理电子邮件日志

虽然这里主要以 Apache HTTPD 日志为例，但 AWK 同样适用于处理电子邮件日志。电子邮件日志通常记录了邮件的发送、接收、错误等信息。假设我们有一个邮件日志文件 mail.log ，其格式如下：

Jun 15 10:23:45 mailserver postfix/smtpd[1234]: connect from client.example.com[192.168.1.100]
Jun 15 10:23:46 mailserver postfix/smtpd[1234]: disconnect from client.example.com[192.168.1.100]

我们可以使用 AWK 统计每个客户端的连接次数：

$ awk '/connect from/ { clients[$(NF-1)]++ } END { for (client in clients) print client, clients[client] }' mail.log

这个代码的执行流程如下：
1. /connect from/ ：只处理包含 connect from 字符串的行。
2. { clients[$(NF-1)]++ } ：提取客户端的 IP 地址（倒数第 2 个字段），并对对应的计数进行加 1 操作。
3. END { for (client in clients) print client, clients[client] } ：在处理完所有行后，遍历存储客户端 IP 地址和计数的数组 clients ，并打印出每个客户端 IP 地址及其连接次数。