背景 随着AI的发展,经常需要用RAG来提高模型的效率,但是对于一些简单的文本,直接使用RAG可能无法达到很好的效果,这时候就需要使用到pdftotext来将pdf中的文字提取出来,然后进行文本分析。本文简单记录命令使用方式 命令 pdftotext xxx.pdf ouput.txt pdftotext -layout xxx.pdf output.txt 注意:这里参数-layout会保留pdf中的格式,如果不保留格式,则使用pdftotext xxx.pdf output.txt 实操