最近,字节跳动团队联合华中科技大学发布的基准数据集 WildDoc 引起了对 OCR 能力的再衡量。WildDoc是首个专为评估自然环境中文档理解能力而设计的基准,它融合了一系列反映真实世界条件的人工捕获的文档图像,选取了 3 个常用的具有代表性的文档场景作为基准(Document/Chart/Table), 包含超过 12,000 张手动拍摄的图片,覆盖了环境、光照、视角、扭曲和拍摄效果等五个影响真实世界文档理解效果的因素。
根据字节团队的介绍,WildDoc 的采集开发主要针对文档理解领域现有的两个问题:
-
脱离真实场景:现实中文档多为手机 / 相机拍摄的纸质文件或屏幕截图,面临光照不均、物理扭曲(褶皱 / 弯曲)、拍摄视角多变、模糊 / 阴影、对焦不准等复杂干扰;
-
无法评估鲁棒性:现有基准未模拟真实环境的复杂性和多样性,导致模型在实际应用中表现存疑。
我们可以看一下 WildDoc 数据集中的样本示例:

为了全面评估现有模型,WildDoc 构建了一个新的鲁棒性指标:Consistency Score,用来评估模型是否能够始终如一地处理现实世界中的各种情况。研究团队对众多具有代表性的 MLLMs 进行了测试,实验发现主流 MLLMs 在 WildDoc 上性能显著下降,例如,GPT-4o 平均准确率下降 35.3%,揭示了现有模型在真实场景文档理解的性能瓶颈。
研究结果提出了几点发现:
-
物理扭曲最具挑战性:皱纹、褶皱、弯曲等物理变形导致模型性能下降最显著,远超光照或视角变化的影响。
-
非正面视角与图

最低0.47元/天 解锁文章
480

被折叠的 条评论
为什么被折叠?



