系列教程 | 用Jina搭建PDF搜索引擎Part 1

最新推荐文章于 2025-07-12 18:12:42 发布

原创

最新推荐文章于 2025-07-12 18:12:42 发布 · 1.5k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#搜索引擎 #深度学习 #语义相似性搜索 #神经搜索 #信息检索

本教程介绍了如何使用Jina和DocArray从PDF中提取和处理文本及图像，为构建PDF搜索引擎做准备。首先，创建PDF并使用Jina Hub的PDFSegmenter提取内容。接着，对文本进行分句处理，并对图像进行归一化。最后，通过ChunkMerger将文本和图像块整合。Part 2将涉及使用CLIP进行语义相似性搜索。

PDF Search 系列教程来咯，在 Part 1 中，我们将演示如何从 PDF 中提取、处理并存储图像及文本。

随着神经搜索 (Neural Search) 技术的普及，越来越多开发者，开始尝试用 Jina 解决非结构化数据的索引和搜索问题。本系列教程中，我们将演示如何用 Jina 搭建一个PDF 搜索引擎。

具体内容如下：

* Part 1 将介绍如何从 PDF 中提取、处理并存储图像及文本

* Part 2 将演示如何将这些信息输入到 CLIP 中（CLIP 是一个可以理解图像及文本的深度学习模型）。提取 PDF 图像及文本信息后，CLIP 将生成索引，输入图像或文本，即可进行语义相似性搜索。

* Part 3 通过客户端及 Streamlit 前端，对索引进行搜索。

* Part 4 为其他相关演示，如提取元数据等。

前序简介：预期目标 & 技术栈

预期目标：搭建一个 PDF 搜索引擎，用户输入文本或上传图片，搜索引擎即可返回类似的图片和文本片段，并附带原始 PDF 链接。

本文将着重讲解如何将一个 900 多页的 PDF 处理成可供搜索的向量。

本教程将涉及以下技术栈：

DocArray：a data structure for unstructured data. 通过这个工具可以封装 PDF 文件、文本块、图像块以及搜索引擎的其他输入/输出。

Jina：为 DocArray Document 搭建流水线及神经搜索引擎，并将其扩展到云端。

Jina Hub：无需逐一创建处理单元，可直接使用云端可复用模块。

教程详解：提取 PDF 中的文本及图像

提取 PDF 中的文本及图像，有以下方法可供选择：

1. 用 Jina Hub 上的 PDFSegmenter Executor，提取 PDF 中文本块和图像块。

2. 用 ImageMagick 和 OCR 对 PDF 中的每一页进行截图。

3. 将 PDF 转换为 HTML，图片提取到目录，再次将 HTML 转换为文本（这里我们使用的是 Pandoc ）。

本文将使用方法 1，提取 PDF 中的文本及图像。

1、创建 PDF（也可使用已有文件）

首先，我们需要一个示例文件，从维基百科中选择一个词条，并导出为 PDF 作为示例文档。本教程中我们用到的是

最低0.47元/天解锁文章

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。