12、使用sed和AWK进行文件处理与虚拟主机创建

kotlin6android

于 2025-12-10 16:33:41 发布

阅读量2

点赞数

CC 4.0 BY-SA版权

分类专栏：精通Linux脚本艺术文章标签： sed AWK 文件处理

本文链接：https://blog.youkuaiyun.com/kotlin6android/article/details/155895044

精通Linux脚本艺术专栏收录该内容

16 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

使用sed和AWK进行文件处理与虚拟主机创建

1. 创建模板的第一步

创建模板的首要步骤是分离出我们所需的行。以示例中的虚拟主机定义为例，需要的行包括 VirtualHost 的开始和结束标签以及其间的所有内容。

我们可以使用行号来完成这一操作，不过这种方法可能不太可靠，因为要保证文件内容未发生变化，行号才会保持一致。为了完整性，我们先展示这种方法，再介绍更可靠的机制。

首先，回顾一下如何使用 sed 打印整个文件：

$ sed -n ' p ' httpd.conf

其中， -n 选项用于抑制标准输出，引号内的 sed 命令 p 用于显示匹配的模式。由于这里没有进行过滤，匹配的模式就是整个文件。

若要使用行号进行过滤，可以使用以下命令添加行号：

$ sed = httpd.conf

假设在当前系统中，我们需要处理的是第355到361行。要显示包含标签的这些行，可以在 sed 中添加行号范围：

$ sed -n '355,361 p ' httpd.conf

通过指定行号范围，我们可以轻松分离出所需的行，此时显示的就只有虚拟主机定义的行。

然而，硬编码行号会导致灵活性丧失，因为这些行号仅适用于当前文件。为克服这一问题，我们可以直接搜索开始和结束标签：

$ sed -n '/^#<VirtualHost/,/^#<\/VirtualHost/p' httpd.conf

这里使用了更可靠的起始和结束正则表达式，而不是起始和结束行号。起始正则表达式查找以 # <VirtualHost 开头的行，结束正则表达式查找结束标签。需要注意的是，要使用转义字符保护 /VirtualHost 。

2. sed脚本文件

分离出行只是第一步，我们还需要取消行的注释并将结果保存为模板。虽然可以将这些操作写成一个单一的 sed 命令字符串，但会变得冗长且难以阅读和编辑。幸运的是， sed 命令可以从输入文件（即脚本）中读取命令，使用 -f 选项指定要读取的文件。

以下是一个 sed 脚本示例：

/^#<VirtualHost/,/^#<\/VirtualHost/ { 
    s/^#// 
    w template.txt 
}

可以将此文件保存为 $HOME/vh.sed 。脚本的第一行选择要处理的行，然后用左花括号打开代码块。第二行使用替换命令 s ，将以 # 开头的行的注释去掉。最后一行使用写入命令 w ，将结果保存到 template.txt 。

在与 httpd.conf 和 vh.sed 文件相同的目录中执行以下命令：

$ sed -nf vh.sed httpd.conf

这样就在工作目录中创建了 template.txt 文件，它是从 httpd.conf 文件中分离出来的无注释文本。

3. 自动化虚拟主机创建

创建模板后，就可以使用它来创建虚拟主机配置。简单来说，需要将 dummy-host.example.com URL替换为 sales.example.com 或 marketing.example.com URL，同时创建 DocumentRoot 目录并添加一些基本内容。

以下是一个自动化脚本示例：

#!/bin/bash 
WEBDIR=/www/docs 
CONFDIR=/etc/httpd/conf.d 
TEMPLATE=$HOME/template.txt 
[ -d $CONFDIR ] || mkdir -p $CONFDIR 
sed s/dummy-host.example.com/$1/ $TEMPLATE > $CONFDIR/$1.conf 
mkdir -p $WEBDIR/$1 
echo "New site for $1" > $WEBDIR/$1/index.html

脚本各部分含义如下：
| 行 | 含义 |
| — | — |
| WEBDIR=/www/docs/ | 初始化 WEBDIR 变量，用于存储不同网站所在目录的路径 |
| CONFDIR=/etc/httpd/conf.d | 初始化 CONFDIR 变量，用于存储新创建的虚拟主机配置文件 |
| TEMPLATE=$HOME/template.txt | 初始化模板变量，指向模板文件的路径 |
| [ -d $CONFDIR ] || mkdir -p "$CONFDIR" | 检查目录是否存在，若不存在则创建 |
| sed s/dummy-host.example.com/$1/ $TEMPLATE > $CONFDIR/$1.conf | 使用 sed 命令进行搜索和替换操作，将模板中的虚拟主机名替换为传入的参数 |
| mkdir -p $WEBDIR/$1 | 创建新虚拟主机网站的子目录 |
| echo "New site for $1" > $WEBDIR/$1/index.html | 创建网站的基本占位页面 |

可以将此脚本保存为 $HOME/bin/vhost.sh ，并添加执行权限。要创建 sales 虚拟主机和网页，可执行以下命令：

# vhost.sh sales.example.com

虚拟主机的配置文件将创建在 /etc/httpd/conf.d/ 目录下，名为 sales.example.com.conf ，网站内容将创建在 /www/docs/sales.example.com 目录下。可以使用以下命令列出每个网站所在的基础目录内容：

$ ls -R /www/docs

4. 网站创建过程中提示输入数据

目前使用的脚本只能创建虚拟主机和内容，除了虚拟主机名外，没有其他自定义选项。实际上，我们可以在创建虚拟主机时允许指定更多选项，并使用 sed 插入所需数据。

例如，我们要添加主机限制，只允许本地网络访问网站。以下是修改后的脚本示例：

#!/bin/bash 
WEBDIR=/www/docs/$1 
CONFDIR=/etc/httpd/conf.d 
CONFFILE=$CONFDIR/$1.conf 
TEMPLATE=$HOME/template.txt 
[ -d $CONFDIR ] || mkdir -p $CONFDIR  
sed s/dummy-host.example.com/$1/ $TEMPLATE > $CONFFILE 
mkdir -p $WEBDIR 
echo "New site for $1" > $WEBDIR/index.html 
read -p "Do you want to restrict access to this site? y/n " 
[ ${REPLY^^} = 'n' ] && exit 0 
read -p "Which network should we restrict access to: " NETWORK 
sed -i "/<\/VirtualHost>/i <Directory $WEBDIR >\ 
  \n  Order allow,deny\ 
  \n  Allow from 127.0.0.1\ 
  \n  Allow from $NETWORK\ 
\n</Directory>" $CONFFILE

该脚本在原脚本基础上进行了一些调整，添加了用户提示输入的部分。如果用户选择不进行额外的定制，脚本将退出；否则，脚本会继续提示输入允许访问的网络，并使用 sed 在现有配置中插入新的 Directory 块。

简化后的伪代码如下：

$ sed -i "/SearchText/i NewText <filename>

其中， SearchText 表示要在其之前插入文本的行， NewText 表示要插入的新行或多行文本， i 命令表示插入操作。

通过以上步骤，我们可以看到如何使用 sed 进行文件处理、创建虚拟主机配置以及实现一定程度的自定义。这些操作不仅适用于Apache，在很多其他场景中也能发挥作用。

5. AWK基础介绍

sed 有一个“大哥”——AWK。接下来将介绍AWK的基础知识，探索AWK编程语言的强大功能。我们将了解为什么需要并喜爱AWK，以及如何使用它的一些基本特性。

5.1 AWK的历史

awk 命令是UNIX和Linux中的常用命令套件。UNIX的 awk 命令于20世纪70年代由贝尔实验室开发，它以主要作者Alfred Aho、Peter Weinberger和Brian Kernighan的姓氏命名。 awk 命令允许使用AWK编程语言来处理文本流中的数据。

AWK有多种实现：
- gawk ：也称为GNU AWK，是免费版本，被许多开发者使用。
- mawk ：由Mike Brennan开发，仅包含一些 gawk 的特性，旨在追求速度和性能。
- tawk ：即Thompson AWK，可在Solaris、DOS和Windows上运行。
- BWK awk ：也称为 nawk ，用于OpenBSD和macOS。

需要注意的是，我们使用的 awk 解释器是 gawk ，并且 awk 和 gawk 实际上是同一个命令。可以通过列出 awk 二进制文件来确认：

# 这里可以添加查看awk二进制文件指向的命令示例

5.2 AWK的“Hello World”程序

为了演示 awk 提供的编程语言，我们创建一个“Hello World”程序：

$ awk 'BEGIN { print "Hello World!" }'

这段代码不仅会打印出常见的问候消息，还可以使用 BEGIN 块生成头部信息。后续还可以使用 END 代码块创建摘要信息。

通过以上内容，我们对 sed 和AWK的基本使用有了初步了解。在实际应用中，它们可以帮助我们高效地处理文件和数据。后续还可以进一步深入学习AWK的其他特性，如变量使用、条件语句、输出格式化等。

6. 用 AWK 显示和过滤文件内容

AWK 可以方便地显示和过滤文件内容。下面以一个简单的文本文件 example.txt 为例，文件内容如下：

John 25 1000
Alice 30 2000
Bob 22 800

要显示文件的每一行，可以使用以下命令：

$ awk '{print}' example.txt

这里 {print} 是 AWK 的默认动作，会打印每一行。

若要只显示第二列（年龄），可以这样操作：

$ awk '{print $2}' example.txt

输出结果为：

25
30
22

如果要过滤出年龄大于 23 的行，可以使用条件语句：

$ awk '$2 > 23 {print}' example.txt

输出为：

John 25 1000
Alice 30 2000

7. AWK 变量

AWK 有许多内置变量，同时也允许用户自定义变量。以下是一些常用的内置变量及其作用：
| 变量名 | 作用 |
| — | — |
| NR | 当前记录的行号 |
| NF | 当前记录的字段数 |
| $0 | 整个当前记录 |
| $n | 第 n 个字段，n 为正整数 |

例如，我们可以使用 NR 变量为每一行添加行号：

$ awk '{print NR, $0}' example.txt

输出结果：

1 John 25 1000
2 Alice 30 2000
3 Bob 22 800

自定义变量也很简单，以下示例中我们定义了一个变量 total 来计算第三列（工资）的总和：

$ awk '{total += $3} END {print total}' example.txt

这里 END 块在处理完所有行后执行，最终输出工资总和 3800 。

8. AWK 中的条件语句

AWK 支持常见的条件语句，如 if-else 语句。以下是一个示例，根据工资高低输出不同的信息：

$ awk '{
    if ($3 > 1500) {
        print $1 " has a high salary"
    } else {
        print $1 " has a low salary"
    }
}' example.txt

输出结果：

John has a low salary
Alice has a high salary
Bob has a low salary

9. 格式化输出

AWK 可以使用 printf 函数进行格式化输出。以下是一个将信息以表格形式输出的示例：

$ awk 'BEGIN {
    printf "%-10s %-5s %-8s\n", "Name", "Age", "Salary"
    printf "-------------------------\n"
} {
    printf "%-10s %-5d %-8d\n", $1, $2, $3
}' example.txt

输出结果如下：

Name       Age  Salary   
-------------------------
John       25   1000     
Alice      30   2000     
Bob        22   800

在 BEGIN 块中，我们先打印了表头和分隔线，然后使用 printf 函数按照指定格式输出每一行的数据。

10. 进一步过滤以按 UID 显示用户

在实际应用中，我们可能需要根据 UID（用户标识符）来过滤和显示用户信息。假设我们有一个用户信息文件 users.txt ，内容如下：

user1:x:1001:1001:User One:/home/user1:/bin/bash
user2:x:1002:1002:User Two:/home/user2:/bin/bash
user3:x:1003:1003:User Three:/home/user3:/bin/bash

要显示 UID 大于 1001 的用户，可以使用以下命令：

$ awk -F: '$3 > 1001 {print $1}' users.txt

这里 -F: 指定了字段分隔符为冒号， $3 表示第三列（即 UID），最终输出结果为：

user2
user3

11. AWK 控制文件

当 AWK 脚本变得复杂时，可以将其保存到一个文件中，然后使用 -f 选项来执行。以下是一个简单的 AWK 控制文件示例 script.awk ：

#!/usr/bin/awk -f
BEGIN {
    FS = ":"
    print "Users with UID > 1001:"
}
$3 > 1001 {
    print $1
}
END {
    print "End of list"
}

在这个脚本中， BEGIN 块设置了字段分隔符为冒号，并打印了一个标题，中间部分过滤出 UID 大于 1001 的用户， END 块打印了结束信息。

要执行这个脚本，可以使用以下命令：

$ awk -f script.awk users.txt

输出结果如下：

Users with UID > 1001:
user2
user3
End of list

总结

通过以上内容，我们详细介绍了如何使用 sed 进行文件处理、创建虚拟主机配置以及实现一定程度的自定义，同时也深入了解了 AWK 的基础知识，包括其历史、显示和过滤文件内容、变量使用、条件语句、格式化输出、进一步过滤以及控制文件的使用。 sed 和 AWK 都是非常强大的文本处理工具，在实际工作中可以帮助我们高效地处理各种文件和数据。希望大家通过学习这些知识，能够在日常的文件处理和数据操作中更加得心应手。

以下是一个简单的 mermaid 流程图，展示了使用 sed 和 AWK 进行文件处理的基本流程：

graph LR
    A[开始] --> B[使用sed分离所需行]
    B --> C[使用sed脚本处理文件]
    C --> D[自动化创建虚拟主机]
    D --> E[使用AWK处理文件内容]
    E --> F[结束]

问题解答

如何从 Apache 配置文件中打印第 50 行？
可以使用以下命令：

$ sed -n '50p' httpd.conf

如何使用 sed 将 Apache 默认端口 80 更改为 8080？
假设配置文件中包含 Listen 80 这样的行，可以使用以下命令：

$ sed -i 's/Listen 80/Listen 8080/g' httpd.conf

这里 -i 选项表示直接在文件中进行修改， s 是替换命令， g 表示全局替换。