智能文档处理IDP关键技术与实践-高翔

最新推荐文章于 2025-06-16 09:20:23 发布

原创

最新推荐文章于 2025-06-16 09:20:23 发布 · 574 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #自然语言处理

智能文档处理（IDP）结合自然语言处理、计算机视觉和文档解析技术，解决复杂文档内容分析。OCR技术用于图像文字提取，文档解析技术处理不同类型文件协议，信息提取技术则抽取文档关键信息。IDP技术挑战包括文字遮盖、小目标检测、表格解析等，通过模型优化和流程调整提升效果。

什么是智能文档处理？针对文本数据处理尤其是纯文本，大家通常会想到使用自然语言处理（Natural language processing，NLP）技术来解决语义理解及分析处理工作。关于自然语言处理技术的研究有很长历史，针对不同层面文本处理和分析有很多技术点，常见技术例如分词与词性标注、命名实体识别、句法结构分析、文本分类、文本摘要等功能。

相较于纯文本，文档的信息表达更加复杂，除各种形式的文本信息外，还包括表格、图片等信息。因此要正确理解文档中的所有内容，仅凭自然语言处理技术难度很大，需要结合其他技术。

图 1 常见文字信息表达方式

智能文档处理（Intelligence Document Processing, IDP）技术是针对文档内容自动处理分析的一揽子技术，除自然语言处理技术外，还包括计算机视觉、文档解析等相关底层技术，因此相较于NLP技术，IDP技术更加复杂。在IDP技术中，光学字符识别（Optical Character Recognition，OCR）技术，文档解析（Document Parsing，DP）技术和信息提取（Information Extraction，IE）技术最为核心关键，使用最为广泛。

光学字符识别技术主要解决文字以图像形式展现的问题。很多文字信息在文档中以图表形式展现，甚至很多文档也以图像形式保存，因此需要OCR技术提取文档中的所有文字及其位置进行分析。另外有些PDF文件对文字内容加密，无法直接拿到字符信息，也需OCR技术拿到正确文字内容。

文档解析技术包括不同类型文件协议解析、文档内容统一表示、版面分析技术、表格解析技术等，目的是把不同类型文档及其中各类元素信息用同一套协议表示文档结构及内容，包含图像和语义信息。

信息提取技术指的是根据文档结构及内容信息，使用不同算法对不同文档元素进行信息提取，合并抽取信息结果，并根据业务需求进行输出。

基于以上核心技术，智能文档处理的通用流程如下图所示：

图 2 通用智能文档处理流程

光学字符识别技术

光学字符识别技术相对成熟，应用范围广，通常情况下，对于清晰的图像，字符识别准确率较高。但是特定的场景下，例如透视、模糊、光线不足、高密度文字等情况下，OCR系统的识别效果下降很大，给实际场景中图片形式的文档处理带来困难。

OCR技术路线通常有两种：

端到端一阶段的方法
检测、识别二阶段的方法

两种技术路线各有优势，没有绝对的好坏。端到端的方法优势在于特定场景效果拟合能力强，但缺点是训练较为困难，效果不太可控。对于一阶段方法，达观常用于印章、车牌等特定场景的文字识别。二阶段方法能够分别在不同步骤达到最佳效果，并能通过业务干预不同阶段输出结果使用较为灵活，因此达观常用于通用文档识别场景，缺点是需要维护两个独立模块，成本相对较高。

图 3 OCR主流技术路线

01文本检测算法概览

文本检测算法的目的是找出图像中文本所在位置，通常情况下是以文本片段组成的文本框为检测目标，当然也有针对单个字符的文本检测方式。针对文本检测，目前分为基于回归的方法和基于分割的方法。

基于回归的方法代表算法有CTPN、SegLink、EAST、CRAFT等，这些方法各有优劣，在不同情况下存在效果差异问题。基于回归的方法对规则形状的文本检测效果较好，但对于不规则文本以及长文本检测效果不佳。

基于实例分割的代表算法有PSENet、DBNet、FCENet，能够针对各种形状的文本都能够取得较好的检测效果，例如大量使用手机拍摄导致的文字扭曲变形等问题，因此在实际落地时使用较多。基于实例分割方法的缺点是后处理通常比较复杂，需要针对后处理部分代码进行特殊优化，才能在效果和速度上保证最优。
下表展示了常见文字检测算法及优缺点。

表1 常见文本检测算法及优缺点

02文字识别算法概览

文字识别技术路线主要经历三个阶段：

以CRNN为代表基于CNN-RNN结构的识别模型
基于Transformer的Encoder-Decoder识别模型
基于Vision-Language视觉语义融合的模型。

图 4 三种文字识别技术路线

CRNN为代表的模型主要包含两个模块：Vision Model（视觉特征提取）和Sequence Model（文字转录）两个模块。视觉特征提取利用经典CNN方式较容易理解，而文字转录模块利用Bi-LSTM和CTC解码将视觉特征转换成文字序列特征。CRNN模型比较经典，并且在大部分场合都能取得较好的效果，使用较广。缺点是对于文字变形、遮挡等干扰很敏感，容易误识别。

基于Transformer Encoder-Decoder结构的模型，由于能更好