序
本文主要研究langchain4j结合Apache PDFBox进行pdf解析
步骤
pom.xml
<dependency>
<groupId>dev.langchain4j</groupId>
<artifactId>langchain4j-document-parser-apache-pdfbox</artifactId>
<version>1.0.0-beta1</version>
</dependency>
example
public class PDFBoxTest {
public static void main(String[] args) {
String path = System.getProperty("user.home") + "/downloads/deepseek.pdf";
DocumentParser parser = new ApachePdfBoxDocumentParser();
Document document = FileSystemDocumentLoader.loadDocument(path, parser);
log.info("textSegment:{}", document.toTextSegment());
log.info("meta data:{}", document.metadata().toMap());
log.info("text:{}", document.text());
}
}
指定好了文件路
langchain4j与PDFBox结合解析PDF

最低0.47元/天 解锁文章
980

被折叠的 条评论
为什么被折叠?



