nlm-ingestor 使用教程

齐冠琰

于 2025-04-09 09:55:21 发布

阅读量548

点赞数 11

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_00273/article/details/147085791

nlm-ingestor 使用教程

nlm-ingestor This repo provides the server side code for llmsherpa API to connect. It includes parsers for various file formats. 项目地址: https://gitcode.com/gh_mirrors/nl/nlm-ingestor

1. 项目介绍

nlm-ingestor 是一个开源项目，提供了一种服务端代码，用于连接 llmsherpa API。该项目包含了自定义的 RAG（检索增强生成）友好解析器，支持多种文件格式，包括 PDF、HTML、Text、DOCX、PPTX 以及其他 Apache Tika 支持的格式。nlm-ingestor 的目的是为了更好地处理和解析文档内容，以便在 LLM（大型语言模型）项目中使用。

2. 项目快速启动

以下是快速启动 nlm-ingestor 的步骤：

安装 Java

首先，确保您的系统安装了最新的 Java 版本。可以从 Oracle 官方网站下载。

运行 Tika 服务器

下载 nlm-ingestor 项目的 jars 文件夹中的 tika-server-standard-nlm-modified-2.9.2_v2.jar 文件，并运行以下命令：

java -jar <path_to_nlm_ingestor>/jars/tika-server-standard-nlm-modified-2.9.2_v2.jar

安装 Ingestor

在您的 Python 环境中安装 nlm-ingestor：

!pip install nlm-ingestor

运行 Ingestor

运行以下命令启动 ingestor 服务：

python -m nlm_ingestor.ingestion_daemon

使用 Docker

如果您希望使用 Docker，可以拉取 Docker 图片：

docker pull ghcr.io/nlmatics/nlm-ingestor:latest

然后运行 Docker 图片，映射端口：

docker run -p 5010:5001 ghcr.io/nlmatics/nlm-ingestor:latest-<version>

3. 应用案例和最佳实践

nlm-ingestor 可以用于处理和分析各种文档，以下是一些应用案例：

文档内容提取：从 PDF、HTML 等格式中提取文本内容。
信息检索：在大量文档中快速检索所需信息。
文档结构分析：分析文档的结构，如标题、段落、表格等。

最佳实践包括：

确保在文档处理前，服务器已经正确配置和启动。
对于大型文档，考虑使用 OCR 功能来提高解析准确性。
优化服务器配置，以适应生产环境的需求。

4. 典型生态项目

nlm-ingestor 可以与以下典型生态项目结合使用：

llmsherpa：用于获取文档块并用于 LLM 项目。
Nginx 或云网关：在 production 环境中，将 nlm-ingestor 服务器置于安全的反向代理后面。

以上就是 nlm-ingestor 的使用教程。通过这些步骤，您可以快速启动项目并开始处理文档。

nlm-ingestor This repo provides the server side code for llmsherpa API to connect. It includes parsers for various file formats. 项目地址: https://gitcode.com/gh_mirrors/nl/nlm-ingestor

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

齐冠琰 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。