从OCR瓶颈到结构化理解来有效提升RAG的效果

当人们探讨如何让人工智能系统更好地从文档中查找和使用信息时,通常关注的是令人瞩目的算法和前沿的大型语言模型。但问题是:如果文本提取的质量很差,那么后续的努力都将付诸东流。本文探讨OCR质量如何影响检索增强生成(RAG)系统,尤其是在处理扫描文档和PDF文件的常见场景时。

OCR错误在RAG流程中级联,将严重影响人工智能系统的性能。拥有2.56亿个参数的SmolDocling能够实现对文档的整体化处理,进而生成结构化输出,有效提升了RAG的效果。

当人们探讨如何让人工智能系统更好地从文档中查找和使用信息时,通常关注的是令人瞩目的算法和前沿的大型语言模型。但问题是:如果文本提取的质量很差,那么后续的努力都将付诸东流。本文探讨OCR质量如何影响检索增强生成(RAG)系统,尤其是在处理扫描文档和PDF文件的常见场景时。

通过在RAG流程中探索光学字符识别(OCR)错误的级联效应,并使用SmolDocling(一种端到端处理文档的超紧凑视觉语言模型)提出了一种现代解决方案。OHRBench研究报告(Zhang et al., 2024)提供了令人信服的证据,表明即使是现代OCR解决方案也难以处理现实世界的文档。展示了只有2.56亿个参数的SmolDocling(Nassar等人,2025年)如何通过整体理解文档而不是逐个字符处理,以输出结构化数据,从而显著提升下游RAG性能。

引言

“垃圾进,垃圾出”的原则不仅仅是一个口号——它是基于文档的RAG系统的现实。当人工智能社区对最新的嵌入模型和检索算法充满兴趣,许多人忽视了一个基本的瓶颈:从现实世界的文档中提取文本的质量。

最近进行的一些研究开始揭示这个问题。Zhang等人(2024)引入了OHRBench,表明当前的OCR解决方案都无法胜任为RAG系统构建高质量知识库的任务。这是对OCR技术应用现状的一个相当糟糕的评价。

错综复杂的OCR现状

1.好消息与坏消息

好消息是,现代OCR技术已经取得了长足进步。谷歌的Tesseract现在已发展到4.0+版本,使用LSTM神经网络,在干净的印刷的文本上实现令人印象深刻的准确率(Patel等人,2020年)。而坏消息是,出现了一些问题:

根据最近进行的基准研究,历史文档中20%或更高的OCR错误率仍然很常见(Bazzo等人,2020)。Rigaud等人(2021)记录了数字图书馆和专业文档类型中的类似问题。

Hamdi等人(2022)的一项基准研究对Tesseract、Amazon Textract和Google Document AI进行了比较,发现Document AI提供了最佳结果,基于服务器的处理器(Textract and Document AI)的性能明显优于Tesseract,尤其是在背景嘈杂的文档上。但即使是表现最好的OCR系统,也难以应对复杂的布局和历史文件。

2.为什么OCR系统面临多种困难和挑战

OCR系统面临的挑战不仅仅是老旧的或褪色的文档(这些文件会有问题)。现代OCR面临几个持续存在的问题:

(1)复杂的布局:多栏格式、表格和混合文本/图像内容使大多数OCR系统感到困惑。

(2)质量参差不齐:即使是来自同一来源的文档,扫描质量也可能大不相同。

(3)语言和字体多样性:非拉丁文字和不常见的字体会显著降低性能。

(4)现实世界的干扰:咖啡渍、手写注释、邮票——这些让文件变得真实的事物也让它们难以阅读。

正如OHRBench论文(Zhang et al., 2024)所述,语义噪声和格式噪声这两种主要的OCR噪声类型,被认为是影响下游RAG性能的主要因素。

OCR错误如何通过

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老贾的AI世界

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值