LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding

最新推荐文章于 2026-01-09 21:51:15 发布

原创最新推荐文章于 2026-01-09 21:51:15 发布 · 462 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #深度学习

LLM Daily 同时被 2 个专栏收录

1838 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM Instruction

17 篇文章

订阅专栏

LayoutLLM是一种新型的文档分析方法，旨在理解和处理图像文档。针对视觉丰富的文档理解任务，如文档图像分类和信息提取，该方法通过集成大规模语言模型（LLM），在多模态指令数据集上进行微调，以单一模型实现多种任务理解。实验显示，LayoutLLM在多个文档分析任务中优于基线模型，同时能有效结合视觉和文本信息。

本文是LLM系列文章，针对《LayoutLLM: Large Language Model Instruction Tuning for Visually
Rich Document Understanding》的翻译。

摘要

本文提出了LayoutLLM，这是一种更灵活的文档分析方法，用于理解图像文档。视觉丰富的文档理解任务，如文档图像分类和信息提取，由于其重要性而受到了极大的关注。已经开发了现有的方法，通过结合图像、文本和布局结构的预训练意识来增强文档理解。然而，这些方法需要对每个任务和数据集进行微调，并且模型的训练和操作成本高昂。为了克服这一限制，我们提出了一种新的LayoutLLM，它将这些与大规模语言模型（LLM）集成在一起。通过利用现有文档图像理解研究的优势和LLM卓越的语言理解能力，所提出的模型与多模态指令数据集进行了微调，可以在单个模型中理解文档图像。我们的实验证明了在各种文档分析任务中对基线模型的改进。

1 引言

2 相关工作

3 方法

4 实验

5 结论

本研究提出了一种能够执行多项任务的文档分析框架。所提出的方法LayoutLLM结合了用于捕获文档图像的VrDU编码器和用于接收任务指令并相应地处理它们的解码器LLM。它使我们能够通过捕捉视觉和文本上下文来有效地理解文档图像。实验结果表明，我们的方法显著提高了各种VrDU任务的性能。此外，与之前的研究不同，它可以