【多模态】paper阅读笔记:Donut

文章介绍了OCR-free的视觉文档理解(VDU)模型Donut,该模型无需依赖OCR,直接从原始图像映射到输出。Donut基于Transformer,通过预训练和微调学习阅读和理解文档,适用于多语言和多领域,且在速度和准确性上表现出优越性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

论文地址: https://arxiv.org/abs/2111.15664v5
项目地址: https://github.com/clovaai/donut
摘要:
理解文档图像(例如发票)是一项核心但具有挑战性的任务,因为它需要阅读文本和全面理解文档等复杂功能。当前的视觉文档理解(VDU)方法将阅读文本的任务外包给现成的光学字符识别(OCR)引擎,并专注于OCR输出的理解任务。尽管这种基于OCR的方法已经显示出有效果的性能,但是它们受限于1)使用OCR的高计算成本;2) OCR模型对语言或文档类型的不灵活;3) OCR错误传播到后续进程。为了解决这些问题,在本文中,我们介绍了一种新的OCR-free的VDU模型Donut,它代表文档理解转换器。作为OCR-free VDU研究的第一步,我们提出了一种具有预训练目标(即交叉熵损失)的简单架构(即Transformer)。Donut在概念上简单而有效。通过广泛的实验和分析,我们展示了一个简单的OCR-free VDU模型Donut,它在各种VDU任务中在速度和准确性方面都达到了最先进的性能。此外,我们提供了一个合成数据生成器SynthDoG图片,帮助模型预训练在各种语言和领域中具有灵活性。

介绍
文档图像,如商业发票、收据和名片,在现代工作环境中很容易找到。为了从这些文档

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jim_gaogao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值