最近在学习TCP/IP,从网上下载了《TCP/IP详解》的电子书。电子书是分章节的若干个PDF文件,每章一个文件,文件名是如下面的文件1所示。
文件1:name.txt
01.pdf
02.pdf
03.pdf
04.pdf
05.pdf
……
……
从这些文件名中看不出每个文件的内容是什么。还好下载文件里里面有个目录文件,含有本书的详细目录,如下所示:
……
……
第3章 IP:网际协议
3.1 引言
3.2 IP首部
3.3 IP路由选择
第4章 ARP:地址解析协议
4.1 引言
4.2 一个例子
4.3 ARP高速缓存
……
……
我想通过这个目录文件把文件名转换成如下所示的结构:
想转换成的文件2:result.txt
01概述.pdf
02链路层.pdf
03IP网际协议.pdf
04ARP地址解析协议.pdf
05RARP逆地址解析协议.pdf
为了达成这个目的,第一步是把目录文件精简成如下所示的chapter.txt
可以利用命令grep -oP ‘(?<=(章)) .*' 目录.txt > chapter.txt
-o是指只显示匹配的部分。
-P是利用PERL的正则表达式形式。
(?<=)是后向匹配符号。
生成的文件如下所示:
文件3:chapter.txt
概述
链路层
IP网际协议
ARP地址解析协议
RARP逆地址解析协议
……
……
再用awk命令处理这两个文件,以形成最后的结果(最重要的一个步骤):
命令如下:
awk 'BEGIN{OFS=FS="."} NR==FNR{a[NR]=$0}NR>FNR{$1=$1 a[FNR];print}' chapter.txt name.txt > result.txt
首先设定域分隔符OFS=FS="."
NR:当前记录数。
FNR:同NR,但相对于当前文件。
首先单独扫描第一个文件chapter.txt,利用条件NR==FNR,是if条件语句的简写形式。也可写成{if(NR==$0) a[NR]=$0}.
之后单独扫描第二个文件name.txt,利用条件NR>FNR。
字符串连接直接用空格即可,即$1=$1 a[FNR]。如果用加号的话,系统会把字符串转换成数值后再进行数值的加减。
生成的文件是unix格式,要想在windows下正常显示,可以使用命令unix2dos result.txt.
最后利用TotalCommander软件的文件批量重命名中的“从文本文件中导入文件名”功能,将result.txt文件加载成电子书目录下的文件名,至此,大功告成。
利用AWK命令编辑电子书的文件名
最新推荐文章于 2024-04-02 21:27:04 发布