真实场景文档理解:字节发布的WildDoc基准数据集向OCR提出了什么挑战?

最近,字节跳动团队联合华中科技大学发布的基准数据集 WildDoc 引起了对 OCR 能力的再衡量。WildDoc是首个专为评估自然环境中文档理解能力而设计的基准,它融合了一系列反映真实世界条件的人工捕获的文档图像,选取了 3 个常用的具有代表性的文档场景作为基准(Document/Chart/Table), 包含超过 12,000 张手动拍摄的图片,覆盖了环境、光照、视角、扭曲和拍摄效果等五个影响真实世界文档理解效果的因素。

根据字节团队的介绍,WildDoc 的采集开发主要针对文档理解领域现有的两个问题:

  • 脱离真实场景:现实中文档多为手机 / 相机拍摄的纸质文件或屏幕截图,面临光照不均、物理扭曲(褶皱 / 弯曲)、拍摄视角多变、模糊 / 阴影、对焦不准等复杂干扰;

  • 无法评估鲁棒性:现有基准未模拟真实环境的复杂性和多样性,导致模型在实际应用中表现存疑。

我们可以看一下 WildDoc 数据集中的样本示例:

为了全面评估现有模型,WildDoc 构建了一个新的鲁棒性指标:Consistency Score,用来评估模型是否能够始终如一地处理现实世界中的各种情况。研究团队对众多具有代表性的 MLLMs 进行了测试,实验发现主流 MLLMs 在 WildDoc 上性能显著下降,例如,GPT-4o 平均准确率下降 35.3%,揭示了现有模型在真实场景文档理解的性能瓶颈。

研究结果提出了几点发现:

  • 物理扭曲最具挑战性:皱纹、褶皱、弯曲等物理变形导致模型性能下降最显著,远超光照或视角变化的影响。

  • 非正面视角与图

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值