DeepVisionary 每日深度学习前沿科技推送&顶会论文分享,与你一起了解前沿深度学习信息!
引言:数学表达式识别的重要性与挑战

数学表达式识别(Mathematical Expression Recognition, MER)是文档分析中的一个关键任务,它旨在将基于图像的数学表达式转换为相应的标记语言,如LaTeX或Markdown。在科学文档提取等应用中,MER的重要性体现在其帮助维持文档逻辑连贯性的能力上。与典型的光学字符识别(Optical Character Recognition, OCR)任务不同,MER需要对复杂结构有更深入的理解,包括上标、下标和各种特殊符号。
现有的研究主要集中在提高相对简单的渲染表达式和手写数据的识别准确性上,通过一系列MER算法实现这一目标。然而,现实世界的场景要求处理复杂、长的表达式以及来自扫描文档或网页截图的噪声、扭曲图像。为填补这一空白,我们引入了一个全面的基准测试,UniMER-Test,它扩展了现有测试集,包括更长和更多现实场景的表达式。我们的基准测试激励了MER在鲁棒性和实际使用中的进步。如图1所示,我们对现有的最先进的MER方法进行了全面评估,这些方法在识别简单的印刷表达式方面表现出了显著的能力。然而,当这些方法被测试在更复杂的印刷表达式,特别是长公式时,它们的性能明显下降。当这些方法应用于现实世界的表达式,如嵌入在噪声背景中的屏幕捕获表达式和手写表达式时,性能退化更加明显。
为了应对这些挑战,我们首先介绍了UniMER数据集,这是一个专为数学表达式识别(MER)量身定制的广泛收集,包括100万个精心策划的表达式。设计旨在补充和验证MER的进步,该数据集包括全面的UniMER-1M训练样本和彻底的UniMER-Test测试集,旨在通过提供与现有数据集相比更广泛的表达式多样性来激发进一步的研究。

最低0.47元/天 解锁文章





