【 论文解读TCPN】一个基于序列的弱监督视觉信息抽取学习框架

文章提出了一种名为TCPN的新方法,用于视觉信息提取任务。该框架采用弱监督学习,减少了对昂贵的注释成本的依赖,解决了OCR错误和标签混淆问题。TCPN包括一个有效的编码器来处理语义和布局信息,以及一个可切换的解码器,可在复制或预测模式和标记模式之间切换,以适应不同的情况。实验结果显示,TCPN在多个基准数据集上表现出优秀的性能,证明了其在文档处理中的有效性。

一、简要介绍

视觉信息提取(VIE)近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别(OCR)结果组织成纯文本,然后利用标记级实体注释作为监督来训练序列标记模型。但是,它花费大量的注释成本,可能导致标签混淆,OCR错误也会显著影响最终性能。在本文中,作者提出了一个统一的弱监督学习框架,称为TCPN(标签、复制或预测网络),它引入了1)一种有效的编码器,可以同时对二维OCR结果中的语义和布局信息进行建模;2)仅利用关键信息序列作为监督的弱监督训练策略;和3)一个灵活和可转换的解码器,其中包含两种推理模式:一种(复制或预测模式)是通过复制输入或预测一个标记来输出不同类别的关键信息序列,另一种(标记模式)是直接标记输入序列。本方法在几个公共基准上显示了最新的性能,充分证明了其有效性。

二、研究背景

随着信息交互的快速发展,文档智能处理引起了相当多的关注。视觉信息提取(VIE)技术作为其中的一个重要组成部分,已经被集成到许多实际应用程序中。现有的VIE方法通常首先根据阅读顺序将文本块(文本边界框和字符串,由ground truth提供或由OCR系统解析)组织成纯文本,并利用有效的编码结构,从多个模态(文本,版面,视觉等)中为每个输入字符提取出最有效的特征表示。

然而,字符级别的类别监督花费了巨大的注释成本,并可能导致标签歧义。给定一个如图1 (a)所示的文档图像,最广泛使用的注释方案是对每个话语的边界框和字符串进行标记,并进一步指出每个字符/框属于哪个类别,如图1 (b).所示这样,需要一个启发式的标签分配过程来训练上述标记模型,其核心思想是将检测到的边框和识别的转录与给定的注释进行匹配,然后为OCR结果的每个字符/边框分配标签。然而,这一过程可能主要会遇到两个方面的问题。首先,错误的识别结果会给匹配操作带来麻烦,特别是对关键信息序列。第二,重复的内容会带来标签的歧义。如图1(a)和(b)所示,三个内容相同的值可以作为关键总量的答案。在大多数情况下,很难建立一个统一的注释规范来确定哪一个应该被视为ground truth。

为了解决上述局限性,本文提出了一种端到端弱监督学习框架,该框架可以直接利用目标密钥信息序列来监督解码过程。它带来的好处主要是两方面:一是大大节省了注释成本,如图1 (c)所示,通过跳过OCR结果与ground truth的匹配,缩短了训练过程;其次,作者的方法通过自动学习OCR结果与ground truth的对齐来解决标签模糊问题,可以自适应地区分重复内容中最可能的结果。此外,作者还提出了一种灵活的解码器,它与作者的弱监督训练策略相结合,有两种可切换的模式——复制或预测模式(TCPN-CP)和标签模式(TCPN-T),以平衡其有效性和效率。在TCPN-CP中,作者的解码器可以通过从输入中复制一个标记或在每个时间步中预测一个标记来生成关键信息序列,这既可以保留输入中的新内容,也可以纠正OCR错误。在TCPN-T中,解码器可以在一次正向传递中直接将每个字符的表示标记为一个特定的类别,从而保持快速的速度。值得注意的是,作者的解码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值