本文是LLM系列文章,针对《LMDX: LANGUAGE MODEL-BASED DOCUMENT INFORMATION EXTRACTION AND LOCALIZATION》的翻译。
摘要
大型语言模型(LLM)已经彻底改变了自然语言处理(NLP),提高了许多现有任务的先进性,并展示了涌现能力。然而,LLM尚未成功应用于半结构化文档信息提取,这是许多文档处理工作流程的核心,包括在给定预定义目标模式的情况下从视觉丰富的文档(VRD)中提取关键实体。在该任务中采用LLM的主要障碍是LLM中缺乏布局编码,这对高质量提取至关重要,并且缺乏确保答案不会产生幻觉的基础机制。在本文中,我们介绍了基于语言模型的文档信息提取和本地化(LMDX),这是一种将任意LLM用于文档信息提取的方法。LMDX可以在有和没有训练数据的情况下提取奇异、重复和分层实体,同时提供基础保证并在文档中本地化实体。特别是,我们将LMDX应用于PaLM 2-S LLM,并在VRDU和CORD基准上对其进行评估,树立了新的最先进水平,并展示了LMDX如何能够创建高质量、数据高效的解析器。
1 引言
2 方法
3 评估
4 结论
在本文中,我们介绍了LMDX,这是一种能够在视觉丰富的文档上使用LLM进行信息提取的方法,为公共基准VRDU和CORD设置了新的最先进的技术。LMDX是第一种允许提取奇异、重复和层次实体的方法,同时将其预测作为基础并将实体定位在文档中。LMDX具有极高的数据效率,甚至允许在全新的文档类型和模式上进行零样本高质量提取。尽管如此,由于LMDX依赖于LLM,因此它比以前的方法更耗费资源,并且其作为token的协调方案需要长时间的输入和输出。作为未来的工作,我们将探索将该方法应用
LMDX利用大型语言模型进行半结构化文档信息提取,适用于视觉丰富的文档,能提取奇异、重复和分层实体,并在文档中定位。在VRDU和CORD基准上达到新SOTA,具有高数据效率,但资源消耗大。
已下架不支持订阅
1053

被折叠的 条评论
为什么被折叠?



