前言
不必打开pdf文件,在Linux终端下可用pdfgrep或python3编程来提取文本。
存在问题:双栏的文本仍按单行提取,尚未自动生成单栏排版。
一、使用pdfgrep来提取文本
功能:命令行工具,用来查找 pdf 文件中的文本。更多用法详见官网。
pdfgrep -n 'txt*' file.pdf|grep -v 'old word'
说明: 查找file.pdf中含 'txt*' 的行,但不包括 ‘old word' 的行,同时给出所在页码。
若仅输出全文,可用如下命令:
pdfgrep ' ' test.pdf # get full txt in compact form.
二、使用pdfplumber来提取文本
安装:pip3 install pd
Linux环境下PDF文本提取技巧

本文介绍了在Linux系统中如何提取PDF文本,包括使用pdfgrep命令行工具和python3的pdfplumber库。pdfgrep能快速查找PDF中的特定文本,而pdfplumber允许更精细的文本处理,但可能需要调整参数以解决单词连接问题。对于简单文本提取,推荐使用pdfgrep。
最低0.47元/天 解锁文章
1000

被折叠的 条评论
为什么被折叠?



