【RAGFlow代码详解-9】文档解析和 OCR

原创

已于 2025-08-26 17:32:33 修改 · 341 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#ocr #embedding #人工智能 #llama

于 2025-08-26 11:55:10 首次发布

系统概述

文档解析和 OCR 系统提供多格式文档支持，并具有基于视觉的分析功能。它由几个关键组件组成：

DeepDoc 视觉系统：用于布局分析、表格检测和 OCR 的高级计算机视觉模型
多格式解析器：支持 PDF、DOCX、Excel、Markdown、HTML 和纯文本
OCR 引擎：支持多种语言的文本识别
版面识别：自动识别文档结构，包括标题、表格、图形

在这里插入图片描述

OCR 引擎架构

OCR 引擎提供文本检测和识别功能，并支持 GPU 加速。它由两个主要组件组成：文本检测和文本识别。
在这里插入图片描述

OCR 引擎支持多种图像预处理方法，可以处理批处理以提高性能：

文档格式支持

RAGFlow 通过专门的解析器类支持多种文档格式，每种解析器类都针对特定文档特征进行了优化：

格式	解析器类	主要特点	视力支持
PDF	PDF 下载（naïve.py:254）	布局分析、表格检测、OCR	是的
DOCX	Docx （naïve.py:39）	图像提取、表格解析、

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

df007df

关注关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

RagFlow文档解析过程分析

呱牛 Just do IT

04-21

2185

RagFlow在文档切片过程中提供了丰富的配置项供用户进行选择，几乎涵盖了目前RAG领域的各种最新的研究成果，特别是利用一系列的深度学习模型在文档解析时引入布局识别，表格结构解析等专有技术，有效提供了文档内容获取的质量，无愧于开源RAG领域的SOTA。不过也因为配置项太多，大家在使用时也需要根据文档的内容和形式仔细进行选择，盲目配置不但导致解析过程极其漫长，实际效果可能也并不会，希望本文能帮助大家更好的进行配置和使用。

RagFlow 文档解析

weixin_43008312的博客

12-05

3616

RAGFlow 的设计哲学是“高质量输入，高质量输出”，它通过提供可解释性和可控性的生成结果，让用户能够信任并依赖于系统提供的答案。

参与评论您还未登录，请先登录后发表或查看评论

RAGFlow：深度文档理解型RAG引擎技术解析，大模型入门到精通，收藏这篇就足够了！

热门推荐

FrenzyTechAI的博客

04-09

4万+

在对 RAGFlow 的探索中，我们可以清晰地看到其在RAG（Retrieval-Augmented Generation）领域中的重要地位和显著优势。RAGFlow作为一款下一代开源RAG引擎，不仅在问答对话方面表现出色，还具备高级内容生成的能力，例如长文生成等。这使得RAGFlow能够为用户提供更为全面和深入的服务，满足不同场景下的需求，尤其在企业级应用中发挥着重要作用。

【RAGFlow代码详解-1】概述

df007df的博客

08-24

1202

RAGFlow是一个生产级RAG引擎，结合LLM与文档理解技术，支持多格式文档处理（PDF/DOCX/Excel等）。其技术特点包括：深度文档解析、可配置分块策略、多后端存储支持（Elasticsearch/OpenSearch等）和可视化工作流构建器。系统采用分层架构，包含React前端、Flask后端和多种存储方案，通过API提供知识库管理、文档处理等功能。RAGFlow实现了从文档上传、解析到向量检索的完整处理流程，支持多语言和容器化部署，适用于企业级知识管理场景。

【RAGFlow代码详解-23】聊天系统架构

df007df的博客

08-26

540

本文介绍了一个基于React的聊天系统架构，采用SSE实现实时消息流，支持多种交互模式。系统核心包括分层组件结构、基于钩子的状态管理和消息生命周期管理，实现URL驱动导航和乐观更新。特色功能包括多模型并发对话、可嵌入聊天小部件及与RAGFlow子系统的深度集成，通过统一消息接口连接知识库、LLM管理等模块，支持文件上传、多租户隔离等扩展能力。

【RAGFlow代码详解-22】聊天界面

df007df的博客

08-26

645

本文介绍了基于React和SSE技术的实时聊天系统架构。系统采用分层设计，前端通过React构建，后端采用SSE实现实时消息流。核心功能包括：1）消息流系统处理用户输入和AI响应；2）使用useSendMessageWithSse钩子管理SSE连接生命周期；3）UI组件架构包含消息显示、输入和控制模块；4）对话管理系统通过对话和会话层次组织交互；5）集成知识库和LLM实现智能响应。系统支持Markdown渲染、文档引用、文件上传等功能，通过URL参数维护聊天状态，实现了高效的实时通信体验。

【RAGFlow代码详解-13】RAG 管道

df007df的博客

08-26

462

RAG 管道架构通过多阶段处理将文档转换为结构化知识图谱，支持两种提取方法：轻量级（Light）和常规（GraphRAG）。系统包含实体解析、图谱合并、多层存储等功能，并与 RAPTOR 分层处理集成。标准化数据格式支持多种检索模式，包括关键词、向量和图查询。该架构实现了从文档到知识图谱的转换，并兼容 RAGFlow 检索系统，提供灵活的查询方式。

RAGFlow解析（分块）方法说明

我用VB编程滴

02-17

1万+

这样做的好处是LLM可以更好的概括论文中相关章节的内容，产生更全面的答案，帮助读者更好地理解论文。姓名/名字'TAB'电话/手机/微信'TAB'最高学历（高中，职高，硕士，本科，博士，初中，中技，中专，专科，专升本，MPA，MBA，EMBA）供应商/供货商'TAB'颜色（黄色、红色、棕色）'TAB'性别（男、女）'TAB'尺码（M、L、XL、XXL）支持的文件格式为DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML。支持的文件格式为DOCX、PDF、TXT。

来自工业界的知识库 RAG 服务(二)，RagFlow 源码全流程深度解析

易迟的专栏

05-24

2万+

前面介绍过有道 QAnything 源码解析，通过深入了解工业界的知识库 RAG 服务，得到了不少调优 RAG 服务的新想法。因此本次趁热打铁，额外花费一点时间，深入研究了另一个火热的开源 RAG 服务RagFlow的完整实现流程，希望同样有所收获。首先依旧可以先从框架图入手，与常规的 RAG 架构进行一些比较可以看到右侧知识库被明显放大，同时最右侧详细介绍了文件解析的各种手段，比如OCR等，这些在常规的 RAG 中可能会作为一个不起眼的。

RAG文档解析调研

猪丶过去拱Ta

07-07

5018

我们都知道，随着模型能力的不同，LLM 多少都会有概率会出现幻觉，在这种情况下，一款 RAG 产品应该随时随地给用户以参考，让用户随时查看 LLM 是基于哪些原文来生成答案的，这需要同时生成原文的引用链接，并允许用户的鼠标 hover 上去即可调出原文的内容，甚至包含图表。从实际前端的展示的 Demo 来看，RAGFlow 可以将解析后的文本块与原始文档中的原始位置关联起来，这个效果还是比较惊艳的，目前看起来只有 RagFlow 实现了类似的效果。默认采用的是识别布局的方式来解析pdf文档的。

RAGFlow 学习笔记

engchina的专栏

06-08

9432

RAGFlow 学习笔记

RagFlow OCR实战踩坑：识别失败、多行切割排查

xiaoyanboke的博客

07-08

726

本文记录了OCR模型识别文本过程中的问题排查与解决方案。主要问题包括：部分识别结果为空、多行内容无法分段、蓝底白字识别效果差以及显存溢出。通过添加调试代码、引入Y方向投影切分法、优化批量识别逻辑和改为逐box单独识别等方法解决。后续可优化不同背景的文本识别能力并升级模型。最终实现了OCR识别的稳定性与准确性提升。

RAGFlow：引领OCR与文档解析技术革新的下一代RAG引擎

xzq_qzx_的博客

04-28

3188

在人工智能的蓬勃发展浪潮中，检索增强生成（RAG）技术凭借其独特优势，迅速成为研究和应用的焦点。RAG技术巧妙地将大型语言模型（LLMs）的卓越生成能力与高效的信息检索系统相结合，为用户带来前所未有的交互体验。然而，随着技术的深入应用，一系列挑战也逐渐浮出水面。现有的RAG系统在处理海量数据时，常常面临效率和准确性的双重考验。尽管LLMs在生成流畅文本方面表现出色，但在面对复杂、非结构化的数据时，它们往往难以精准捕捉和提取关键信息。

【大模型】RAG效果优化：高质量文档解析详解

2401_85375186的博客

09-09

2122

基于PDFPlumber将pdf中的文字部分提取出来，得到words集合，并基于words位置关系检测文本行（lines）。

从零实现本地知识库问答——实战基于OCR和文本解析器的新一代RAG引擎：RAGFlow(含源码剖析)

结构之法算法之道

04-13

1万+

继InfiniFlow于去年年底正式开源 AI 原生数据库 Infinity 之后，InfiniFlow的的端到端 RAG 解决方案 RAGFlow 也于近期正式开源是的，你没看错，这3个看起来很不性感的地方，恰恰是目前许多 LLM 没有做好的。伴随着长上下文 LLM 的升级，特别是针对长上下文“大海捞针”能力的提升，极大缓解了 RAG 实施中的痛点之一 —— 来自 LLM 自身的问题而另一大问题就是来自 RAG 系统本身，这包含：数据库的问题。多路召回对于 RAG还挺重要的。

7.1k Star！RAGFlow：最新开源OCR+深度文档理解的RAG引擎、大海捞针测试、降低幻觉、服务化API集成进业务！

lythinking的博客

05-11

7075

RAG，也就是检索增强生成，听上去可能有点科技感，但其实这个概念相当直观。它基本上就是通过一个巧妙的方法来让大型语言模型（LLM）生成更精准、更有用的回答。这个过程开始于一种特殊的数据库，我们可以称之为“垂直领域数据库”。当你向LLM提出一个问题时，RAG不是直接回答，而是先到这个数据库里去搜索与你的问题最相关的信息。这就好比你问了一个复杂的问题，RAG先跑去图书馆查资料。接下来的步骤是关键：RAG把这些检索到的信息整合成一个精细的提示模板。然后，这个模板和你的原始问题一起被送到LLM。

RAGFlow使用常见问题与解决方案详解

许多非结构化文件如PDF、Word等在解析过程中可能因编码异常、字体缺失或布局复杂而导致OCR识别出错，进而产生空文本或乱码片段。这类“伪成功”上传会使得知识块虽显示为“已上传”，实则内部无有效语义内容可供检索...