nlm-ingestor 使用教程
1. 项目介绍
nlm-ingestor
是一个开源项目,由 nlmatics 维护。该项目提供了一个服务器端代码,用于连接 llmsherpa API。它包含了用于各种文件格式的自定义 RAG(检索增强生成)友好解析器,例如 PDF、HTML、文本以及 Apache Tika 支持的任何格式,如 DOCX、PPTX 等。
2. 项目快速启动
以下是快速启动 nlm-ingestor
的步骤:
- 安装 Java 最新版本。
- 下载并运行 tika server:
java -jar <path_to_nlm_ingestor>/jars/tika-server-standard-nlm-modified-2.9.2_v2.jar
- 安装 ingestor:
!pip install nlm-ingestor
- 运行 ingestor:
python -m nlm_ingestor.ingestion_daemon
- 使用 Docker:
- 拉取 docker镜像:
docker pull ghcr.io/nlmatics/nlm-ingestor:latest
- 运行 docker 镜像,映射端口:
docker run -p 5010:5001 ghcr.io/nlmatics/nlm-ingestor:latest-<version>
- 拉取 docker镜像:
启动服务后,可以通过 llmsherpa API 库获取文档块,用于您的 LLM 项目。
3. 应用案例和最佳实践
应用案例
- 文档解析:使用
nlm-ingestor
解析 PDF、HTML、DOCX 等格式的文档,提取文本内容。 - 数据抽取:从文档中提取表格、列表、标题等信息,用于数据分析和处理。
最佳实践
- 在生产环境中,建议在
nlm-ingestor
服务器后面使用 nginx 或云网关来增加安全性。 - 对于含有扫描页面的 PDF 文档,可以启用 OCR 功能来提高文本识别的准确性。
4. 典型生态项目
nlm-ingestor
可以与以下生态项目配合使用:
llmsherpa
:一个用于检索增强生成的 API 库。nlm-tika
:nlmatics 对 Apache Tika 的修改版本,用于改进 PDF 解析。
通过结合这些项目,可以构建强大的文档处理和分析流程。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考