nlm-ingestor 使用教程

魏鹭千Peacemaker

于 2025-04-01 09:21:32 发布

阅读量432

点赞数 13

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_00610/article/details/146898481

nlm-ingestor 使用教程

nlm-ingestor This repo provides the server side code for llmsherpa API to connect. It includes parsers for various file formats. 项目地址: https://gitcode.com/gh_mirrors/nl/nlm-ingestor

1. 项目介绍

nlm-ingestor 是一个开源项目，由 nlmatics 维护。该项目提供了一个服务器端代码，用于连接 llmsherpa API。它包含了用于各种文件格式的自定义 RAG（检索增强生成）友好解析器，例如 PDF、HTML、文本以及 Apache Tika 支持的任何格式，如 DOCX、PPTX 等。

2. 项目快速启动

以下是快速启动 nlm-ingestor 的步骤：

安装 Java 最新版本。

下载并运行 tika server：

java -jar <path_to_nlm_ingestor>/jars/tika-server-standard-nlm-modified-2.9.2_v2.jar

安装 ingestor：
```
!pip install nlm-ingestor
```

运行 ingestor：

python -m nlm_ingestor.ingestion_daemon

使用 Docker：

拉取 docker镜像：

docker pull ghcr.io/nlmatics/nlm-ingestor:latest

运行 docker 镜像，映射端口：

docker run -p 5010:5001 ghcr.io/nlmatics/nlm-ingestor:latest-<version>

启动服务后，可以通过 llmsherpa API 库获取文档块，用于您的 LLM 项目。

3. 应用案例和最佳实践

应用案例

文档解析：使用 nlm-ingestor 解析 PDF、HTML、DOCX 等格式的文档，提取文本内容。
数据抽取：从文档中提取表格、列表、标题等信息，用于数据分析和处理。

最佳实践

在生产环境中，建议在 nlm-ingestor 服务器后面使用 nginx 或云网关来增加安全性。
对于含有扫描页面的 PDF 文档，可以启用 OCR 功能来提高文本识别的准确性。

4. 典型生态项目

nlm-ingestor 可以与以下生态项目配合使用：

llmsherpa：一个用于检索增强生成的 API 库。
nlm-tika：nlmatics 对 Apache Tika 的修改版本，用于改进 PDF 解析。

通过结合这些项目，可以构建强大的文档处理和分析流程。

nlm-ingestor This repo provides the server side code for llmsherpa API to connect. It includes parsers for various file formats. 项目地址: https://gitcode.com/gh_mirrors/nl/nlm-ingestor

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

魏鹭千Peacemaker 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。