历史手写文本概率索引技术:原理、应用与挑战
1. 技术背景与动机
在处理历史手写文本时,存在诸多挑战,导致传统手写文本识别(HTR)技术难以达到理想效果。历史手稿通常存在书写潦草、缩写复杂、拼写古老、标点使用不规范、阅读顺序模糊以及保存相关的退化问题,如对比度不足、污渍、透印等。这使得“地面真值”或“参考”转录的概念变得模糊,不同的古文字专家对同一段手写文本可能有不同的解读。
传统HTR技术的目标是为文本图像生成一个“尽可能正确”的唯一转录,但由于上述不确定性,这一目标难以实现。因此,需要新的方法来明确应对历史手写文本的内在不确定性。
2. 早期应对方法
- CATTI(计算机辅助文本图像转录) :该方法不执着于寻找最佳或最正确的转录,而是为用户提供一系列可能的替代方案,让用户决定什么是“最佳”或“正确”的。其过程是交互式的,由用户反馈驱动,替代转录假设会根据用户之前验证、建议或修改的内容进行调整。然而,CATTI适用于单个历史手稿或少量特定文本图像的转录,对于数十万甚至数百万页的历史文献集,需要人类专家干预的方法变得不可扩展或不切实际。
- 朴素转录搜索方法 :先使用“好”的HTR系统自动转录整个系列,然后应用现成的纯文本搜索平台。但由于历史手写文本的内在不确定性和任务规模,转录“错误”会很多,且难以评估转录的正确性,导致搜索体验不佳。
3. 概率索引(PrIx)框架的出现
概率索引(PrIx)框架应运而生,它明确接受历史手写文本的固有模糊性和不确定性,并利用这种接受来提供出色的搜索性能,即使
超级会员免费看
订阅专栏 解锁全文
7235

被折叠的 条评论
为什么被折叠?



