论文地址: https://arxiv.org/abs/2111.15664v5
项目地址: https://github.com/clovaai/donut
摘要:
理解文档图像(例如发票)是一项核心但具有挑战性的任务,因为它需要阅读文本和全面理解文档等复杂功能。当前的视觉文档理解(VDU)方法将阅读文本的任务外包给现成的光学字符识别(OCR)引擎,并专注于OCR输出的理解任务。尽管这种基于OCR的方法已经显示出有效果的性能,但是它们受限于1)使用OCR的高计算成本;2) OCR模型对语言或文档类型的不灵活;3) OCR错误传播到后续进程。为了解决这些问题,在本文中,我们介绍了一种新的OCR-free的VDU模型Donut,它代表文档理解转换器。作为OCR-free VDU研究的第一步,我们提出了一种具有预训练目标(即交叉熵损失)的简单架构(即Transformer)。Donut在概念上简单而有效。通过广泛的实验和分析,我们展示了一个简单的OCR-free VDU模型Donut,它在各种VDU任务中在速度和准确性方面都达到了最先进的性能。此外,我们提供了一个合成数据生成器SynthDoG图片,帮助模型预训练在各种语言和领域中具有灵活性。
介绍
文档图像,如商业发票、收据和名片,在现代工作环境中很容易找到。为了从这些文档