PDF根据目录信息格式化并生成大纲标签

该博客介绍了如何使用工具如freepic2pdf和VSCode来提取并格式化PDF的目录信息。首先,通过提取itf文件的页码并修改BasePage。接着,利用正则表达式对网络上获取的目录进行格式化,包括调整章节、子章节的层级和页码。最终,通过freepic2pdf挂载书签,生成符合需求的PDF目录。整个过程涉及到了文本处理和自动化技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

工具

freepic2pdf
vscode

提取pdf标签信息

在这里插入图片描述
提取出两个文件。
在这里插入图片描述

itf文件里修改目录起始页码,如:此pdf第14页对应书籍的第一页。
在这里插入图片描述
将BasePage改为对应的起始页码。
在这里插入图片描述
txt文件内就是目录信息,接下来先要在网上(如豆瓣)找到对应书籍的目录信息,当然也可以使用OCR扫描目录生成对应文字信息。

在这里插入图片描述
但此格式不符合我们的需要,因此要重新格式化。

格式化目录信息

vscode打开提取出来的FreePic2Pdf_bkmk.txt文件,并将目录信息复制进去。
我们需要的格式为:

格式化后:
第一部分 标 题    91章 标题    10
        1.1 标题    11
            1.1.1 标 题    12

几个要点:

  1. 章节(小节)数和章节(小节)名之间有一个空格
  2. 章节(小节)名和页码之间一个制表符(\t)
  3. 每一个子章节(小节)比上一层级多一个制表符(\t)

初始格式化

由于网络上能找到的目录格式混杂,因此直接全部初始化为基本格式。
在这里插入图片描述

页码

正则表达式查找

(\d{1,3})$
//行尾匹配,寻找行末有1到3个数字结尾的数字,并且括号内的为分组1

替换

\t$1
//替换为一个制表符,$1代表括号内的分组1

在这里插入图片描述

一级标题

一般为“第X章”。
正则查找

^((\d|\D)+)

如果是“第一部分”这类格式,也可为

^(.*部分)

替换为

$1 

在这里插入图片描述

//$1代表括号内的第一个分组
//注意$1后有一个空格

三级标题

行头匹配,因此倒序替换(先三级标题,后二级标题,如有更多级标题也是从后往前匹配替换)。
“1.1.1”类型格式
正则匹配

^(\d+\.\d+\.\d+)

替换

\t\t$1 
//三级标题有两个制表符,并且最后有一个空格

在这里插入图片描述
“一、二、三、”类型格式
正则匹配

^(.|..)

替换

\t\t$1

二级标题

正则匹配

^(\d+\.\d+)

替换

\t$1 
//二级标题有一个制表符,且最后有一个空格

在这里插入图片描述

成品展示

在这里插入图片描述

合并目录标签

使用freepic2pdf,更改pdf,挂载书签。
注意如果pdf在其他软件中打开,先关闭之后再进行挂载。
在这里插入图片描述

最终成果展示

在这里插入图片描述

扩展阅读

PdgCntEditor教程
Pdf补丁丁(根据文档结构自动生成目录)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值