背景
随着AI的发展,经常需要用RAG来提高模型的效率,但是对于一些简单的文本,直接使用RAG可能无法达到很好的效果,这时候就需要使用到pdftotext来将pdf中的文字提取出来,然后进行文本分析。本文简单记录命令使用方式
命令
pdftotext xxx.pdf ouput.txt
pdftotext -layout xxx.pdf output.txt
注意:这里参数-layout会保留pdf中的格式,如果不保留格式,则使用pdftotext xxx.pdf output.txt
实操


其他
pdftotext
在ubuntu上一般自带
还有pdf2text的工具安装方式
python安装:(最常用的是 pdfminer.six 这个 Python 库,它包含 pdf2text 工具。)
sudo apt install python3-pdfminer

mac上其他安装方式:
brew install --cask pdf-expert

其他
qpdf --decrypt --replace-input yourpdf.pdf #增加拷贝能力
1845

被折叠的 条评论
为什么被折叠?



