LayTextLLM: A Bounding Box is Worth One Token Interleaving Layout and Text in a Large Language Model

最新推荐文章于 2025-12-12 18:01:47 发布

UnknownBody

最新推荐文章于 2025-12-12 18:01:47 发布

阅读量206

点赞数 4

CC 4.0 BY-SA版权

分类专栏： LLM Daily 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/143640458

LLM Daily 专栏收录该内容

1734 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文是LLM系列文章，针对《LayTextLLM: A Bounding Box is Worth One Token Interleaving Layout and Text in a Large Language Model for Document Understanding》的翻译。

LayTextLLM：一个边界框相当于一个token在大型语言模型中交错布局和文本，以便理解文档

摘要
1 引言
2 相关工作
3 方法
4 实验
5 局限性
6 结论

摘要

最近，许多研究表明，将 OCR 衍生的文本和空间布局专门与大型语言模型（LLM）相结合对于文档理解任务非常有效。但是，将空间布局与文本集成的现有方法存在局限性，例如生成过长的文本序列或无法充分利用 LLM 的自回归特征。在这项工作中，我们介绍了大型语言模型中的交错布局和文本（LayTextLLM）用于文档理解。特别是，LayTextLLM 将每个边界框投影到单个嵌入中，并将其与文本交错，从而有效地避免了长序列问题，同时利用了 LLM 的自回归特征。LayTextLLM 不仅简化了布局和文本数据的交互，而且在关键信息提取（KIE）和可视化问答（VQA）方面也显示出增强的性能。全面的基准评估揭示了显着的改进，与以前最先进的文档理解 MLLM 相比，KIE 任务增加了 27.2%，VQA 任务增加了 12.0%，与其他基于 SOTA OCR 的 LLM 相比，KIE 任务提高了 15.1%。此外，我们发现空间布局可以解码回坐标，而需要输出边界框坐标的推理可以进一步缓解幻觉问题。所有资源均可在 https://github.com/LayTextLLM/LayTextLLM 获取。