nlm-ingestor 项目安装与配置指南

丁操余

于 2025-04-09 09:57:12 发布

阅读量890

点赞数 24

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_00759/article/details/147085876

版权

nlm-ingestor 项目安装与配置指南

nlm-ingestor This repo provides the server side code for llmsherpa API to connect. It includes parsers for various file formats. 项目地址: https://gitcode.com/gh_mirrors/nl/nlm-ingestor

项目基础介绍

nlm-ingestor 是一个开源项目，主要提供了一种服务端的代码，用于连接 llmsherpa API。该项目包含了用于解析多种文件格式的定制化 RAG（检索增强生成）友好解析器，例如 PDF、HTML 和文本等。nlm-ingestor 可以帮助用户提取文档结构化数据，以便用于大型语言模型（LLM）项目。

项目主要使用的编程语言是 Python，同时依赖于 Java 环境，因为部分功能基于 Apache Tika 的修改版本来实现。

项目使用的关键技术和框架

Apache Tika: 一个开源的库，用于解析多种不同的文件格式。
PDF解析器: 基于文本坐标、图形和字体数据的规则基础解析器。
HTML解析器: 创建布局感知块，以优化 RAG 性能。
文本解析器: 尝试通过文本本身识别列表、表格、标题等结构。
Docker: 容器化技术，用于简化部署和运行环境。

安装和配置准备工作

在开始安装之前，请确保您的系统中已安装以下软件：

Java Development Kit (JDK)
Python
Docker (可选，用于容器化部署)

以下是详细的安装步骤：

步骤 1：安装 Java

首先，您需要从 Oracle 官方网站下载并安装最新版本的 JDK。

步骤 2：安装 Python

您可以从 Python 官方网站下载并安装 Python。确保安装过程中已添加 Python 到系统环境变量中。

步骤 3：安装 Apache Tika

从官方网站下载 Apache Tika 的jar文件，或者使用以下命令：

java -jar path_to_tika_server_standard_nlm_modifed_version.jar

确保将 path_to_tika_server_standard_nlm_modifed_version.jar 替换为您下载的 Tika 服务器jar文件的实际路径。

步骤 4：安装 nlm-ingestor

使用以下命令安装 nlm-ingestor：

pip install nlm-ingestor

步骤 5：运行 nlm-ingestor

启动 nlm-ingestor 服务：

python -m nlm_ingestor.ingestion_daemon

步骤 6：Docker部署（可选）

如果您选择使用 Docker，可以执行以下命令拉取镜像：

docker pull ghcr.io/nlmatics/nlm-ingestor:latest

然后运行 Docker 容器：

docker run -p 5010:5001 ghcr.io/nlmatics/nlm-ingestor:latest-version

确保将 latest-version 替换为您拉取的 Docker 镜像的版本。

完成以上步骤后，您的 nlm-ingestor 应该已经成功安装并配置好了。您可以开始使用 llmsherpa API 来获取文档块，并将它们用于您的 LLM 项目中。

nlm-ingestor This repo provides the server side code for llmsherpa API to connect. It includes parsers for various file formats. 项目地址: https://gitcode.com/gh_mirrors/nl/nlm-ingestor

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

丁操余 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。