1、历史手写文本概率索引技术:原理、应用与挑战

历史手写文本概率索引技术:原理、应用与挑战

1. 技术背景与动机

在处理历史手写文本时,存在诸多挑战,导致传统手写文本识别(HTR)技术难以达到理想效果。历史手稿通常存在书写潦草、缩写复杂、拼写古老、标点使用不规范、阅读顺序模糊以及保存相关的退化问题,如对比度不足、污渍、透印等。这使得“地面真值”或“参考”转录的概念变得模糊,不同的古文字专家对同一段手写文本可能有不同的解读。

传统HTR技术的目标是为文本图像生成一个“尽可能正确”的唯一转录,但由于上述不确定性,这一目标难以实现。因此,需要新的方法来明确应对历史手写文本的内在不确定性。

2. 早期应对方法
  • CATTI(计算机辅助文本图像转录) :该方法不执着于寻找最佳或最正确的转录,而是为用户提供一系列可能的替代方案,让用户决定什么是“最佳”或“正确”的。其过程是交互式的,由用户反馈驱动,替代转录假设会根据用户之前验证、建议或修改的内容进行调整。然而,CATTI适用于单个历史手稿或少量特定文本图像的转录,对于数十万甚至数百万页的历史文献集,需要人类专家干预的方法变得不可扩展或不切实际。
  • 朴素转录搜索方法 :先使用“好”的HTR系统自动转录整个系列,然后应用现成的纯文本搜索平台。但由于历史手写文本的内在不确定性和任务规模,转录“错误”会很多,且难以评估转录的正确性,导致搜索体验不佳。
3. 概率索引(PrIx)框架的出现

概率索引(PrIx)框架应运而生,它明确接受历史手写文本的固有模糊性和不确定性,并利用这种接受来提供出色的搜索性能,即使

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值