文档理解与行人重识别技术探究
在当今的信息处理领域,文档理解和行人重识别是两个重要的研究方向。文档理解旨在从文档中准确提取信息,而行人重识别则是根据已知描述找到目标行人的图像。下面将详细介绍相关的技术和实验。
文档理解中的信息提取与评估
在文档理解任务中,信息提取(IE)的输出匹配判断至关重要。若文本内容、键值匹配且位置的交并比(IoU)大于阈值(本文为 0.3),则认为 IE 的输出与真实元素匹配。用 $y_{ik}$ 表示匹配结果,若匹配则为 1,反之则为 0。损失函数采用标准的二元交叉熵损失,结合标签 $y_{ik}$ 和概率 $p_{ik}$ 进行计算。
数据集
为了进行实验,收集了 4 个类似发票的数据集,并分为英语和日语两个任务。每个任务中,较大的数据集作为主数据集,较小的作为分布外(OOD)数据集。具体数据集如下:
- 公共英语数据集
- SROIE 主数据集 :是扫描收据的数据集,有 4 个键值:地址、公司、日期和总计。训练集有 626 个文件,对应 3859 个 IE 输出的键值字段,其中 10% 作为验证集。测试集有 341 个文件和 1640 个字段。
- CORD OOD 数据集 :包含从印尼商店和餐厅收集的收据。与 SROIE 相比,CORD 文档图像是在自然环境中拍摄的,数据噪声大、质量低,仅与 SROIE 共享一个键值“总计”。使用的 CORD - dev 集包含 100 个文件,对应 103 个 IE 输出字段。
- 内部日语数据集 <
超级会员免费看
订阅专栏 解锁全文
1200

被折叠的 条评论
为什么被折叠?



