PDF文本的提取(Linux)

Linux环境下PDF文本提取技巧
本文介绍了在Linux系统中如何提取PDF文本,包括使用pdfgrep命令行工具和python3的pdfplumber库。pdfgrep能快速查找PDF中的特定文本,而pdfplumber允许更精细的文本处理,但可能需要调整参数以解决单词连接问题。对于简单文本提取,推荐使用pdfgrep。

前言

不必打开pdf文件,在Linux终端下可用pdfgrep或python3编程来提取文本。

存在问题:双栏的文本仍按单行提取,尚未自动生成单栏排版。


一、使用pdfgrep来提取文本

功能:命令行工具,用来查找 pdf 文件中的文本。更多用法详见官网

pdfgrep -n 'txt*' file.pdf|grep -v 'old word'

说明: 查找file.pdf中含 'txt*' 的行,但不包括 ‘old word' 的行,同时给出所在页码。

若仅输出全文,可用如下命令:

pdfgrep ' ' test.pdf  # get full txt in compact form.

二、使用pdfplumber来提取文本

 安装:pip3 install pd

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值