破解复杂真实场景:UniMERNet革新数学表达式识别,数据达百万级别,性能全面领先!

DeepVisionary 每日深度学习前沿科技推送&顶会论文分享,与你一起了解前沿深度学习信息!

引言:数学表达式识别的重要性与挑战

在这里插入图片描述

数学表达式识别(Mathematical Expression Recognition, MER)是文档分析中的一个关键任务,它旨在将基于图像的数学表达式转换为相应的标记语言,如LaTeX或Markdown。在科学文档提取等应用中,MER的重要性体现在其帮助维持文档逻辑连贯性的能力上。与典型的光学字符识别(Optical Character Recognition, OCR)任务不同,MER需要对复杂结构有更深入的理解,包括上标、下标和各种特殊符号。

现有的研究主要集中在提高相对简单的渲染表达式和手写数据的识别准确性上,通过一系列MER算法实现这一目标。然而,现实世界的场景要求处理复杂、长的表达式以及来自扫描文档或网页截图的噪声、扭曲图像。为填补这一空白,我们引入了一个全面的基准测试,UniMER-Test,它扩展了现有测试集,包括更长和更多现实场景的表达式。我们的基准测试激励了MER在鲁棒性和实际使用中的进步。如图1所示,我们对现有的最先进的MER方法进行了全面评估,这些方法在识别简单的印刷表达式方面表现出了显著的能力。然而,当这些方法被测试在更复杂的印刷表达式,特别是长公式时,它们的性能明显下降。当这些方法应用于现实世界的表达式,如嵌入在噪声背景中的屏幕捕获表达式和手写表达式时,性能退化更加明显。

为了应对这些挑战,我们首先介绍了UniMER数据集,这是一个专为数学表达式识别(MER)量身定制的广泛收集,包括100万个精心策划的表达式。设计旨在补充和验证MER的进步,该数据集包括全面的UniMER-1M训练样本和彻底的UniMER-Test测试集,旨在通过提供与现有数据集相比更广泛的表达式多样性来激发进一步的研究。

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值