nlm-ingestor 使用教程

nlm-ingestor 使用教程

nlm-ingestor This repo provides the server side code for llmsherpa API to connect. It includes parsers for various file formats. nlm-ingestor 项目地址: https://gitcode.com/gh_mirrors/nl/nlm-ingestor

1. 项目介绍

nlm-ingestor 是一个开源项目,提供了一种服务端代码,用于连接 llmsherpa API。该项目包含了自定义的 RAG(检索增强生成)友好解析器,支持多种文件格式,包括 PDF、HTML、Text、DOCX、PPTX 以及其他 Apache Tika 支持的格式。nlm-ingestor 的目的是为了更好地处理和解析文档内容,以便在 LLM(大型语言模型)项目中使用。

2. 项目快速启动

以下是快速启动 nlm-ingestor 的步骤:

安装 Java

首先,确保您的系统安装了最新的 Java 版本。可以从 Oracle 官方网站 下载。

运行 Tika 服务器

下载 nlm-ingestor 项目的 jars 文件夹中的 tika-server-standard-nlm-modified-2.9.2_v2.jar 文件,并运行以下命令:

java -jar <path_to_nlm_ingestor>/jars/tika-server-standard-nlm-modified-2.9.2_v2.jar

安装 Ingestor

在您的 Python 环境中安装 nlm-ingestor:

!pip install nlm-ingestor

运行 Ingestor

运行以下命令启动 ingestor 服务:

python -m nlm_ingestor.ingestion_daemon

使用 Docker

如果您希望使用 Docker,可以拉取 Docker 图片:

docker pull ghcr.io/nlmatics/nlm-ingestor:latest

然后运行 Docker 图片,映射端口:

docker run -p 5010:5001 ghcr.io/nlmatics/nlm-ingestor:latest-<version>

3. 应用案例和最佳实践

nlm-ingestor 可以用于处理和分析各种文档,以下是一些应用案例:

  • 文档内容提取:从 PDF、HTML 等格式中提取文本内容。
  • 信息检索:在大量文档中快速检索所需信息。
  • 文档结构分析:分析文档的结构,如标题、段落、表格等。

最佳实践包括:

  • 确保在文档处理前,服务器已经正确配置和启动。
  • 对于大型文档,考虑使用 OCR 功能来提高解析准确性。
  • 优化服务器配置,以适应生产环境的需求。

4. 典型生态项目

nlm-ingestor 可以与以下典型生态项目结合使用:

  • llmsherpa:用于获取文档块并用于 LLM 项目。
  • Nginx 或云网关:在 production 环境中,将 nlm-ingestor 服务器置于安全的反向代理后面。

以上就是 nlm-ingestor 的使用教程。通过这些步骤,您可以快速启动项目并开始处理文档。

nlm-ingestor This repo provides the server side code for llmsherpa API to connect. It includes parsers for various file formats. nlm-ingestor 项目地址: https://gitcode.com/gh_mirrors/nl/nlm-ingestor

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

齐冠琰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值