本文是LLM系列文章,针对《LMDX: LANGUAGE MODEL-BASED DOCUMENT INFORMATION EXTRACTION AND LOCALIZATION》的翻译。
摘要
大型语言模型(LLM)已经彻底改变了自然语言处理(NLP),提高了许多现有任务的先进性,并展示了涌现能力。然而,LLM尚未成功应用于半结构化文档信息提取,这是许多文档处理工作流程的核心,包括在给定预定义目标模式的情况下从视觉丰富的文档(VRD)中提取关键实体。在该任务中采用LLM的主要障碍是LLM中缺乏布局编码,这对高质量提取至关重要,并且缺乏确保答案不会产生幻觉的基础机制。在本文中,我们介绍了基于语言模型的文档信息提取和本地化(LMDX),这是一种将任意LLM用于文档信息提取的方法。LMDX可以在有和没有训练数据的情况下提取奇异、重复和分层实体,同时提供基础保证并在文档中本地化实体。特别是,我们将LMDX应用于PaLM 2-S LLM,并在VRDU和CORD基准上对其进行评估,树立了新的最先进水平,并展示了LMDX如何能够创建高质量、数据高效的解析器。