手写文本图像信息检索与概率索引技术解析
1. 动机与背景
在人类历史的长河中,手写一直是保存和分享知识的重要方式。随着古登堡在 1439 年左右发明印刷机,信息的传播速度得到了极大提升,更多人有机会获取知识。而在当今数字时代,计算机和数字格式的使用使得信息存储变得更加廉价和便捷,只要有网络连接,任何人都能获取全球范围内的信息,这为人类知识的普及带来了新的可能。
近年来,世界各地的档案馆和图书馆进行了大量的手稿数字化工作,产生了海量的历史手稿和早期印刷文件的高分辨率图像。然而,这些图像中的文本内容却难以获取,因此人们对自动搜索手写文本图像中相关文本信息的方法产生了浓厚兴趣。
要使用传统的纯文本索引和搜索信息检索(IR)方法,首先需要将手写文本图像转换为数字文本。但手动转录这些图像的成本极高,即使采用众包方法也难以承受。因此,自动手写文本识别(HTR)成为了一种替代方案。
HTR 的发展始于 20 世纪 50 年代和 60 年代,在过去 50 年中取得了显著进展。但目前最先进的 HTR 系统只有在假定完美的布局、行检测和阅读顺序的情况下才能取得较好的转录结果。而实际的历史扫描文档对于 HTR 技术来说仍然具有很大挑战,即使在该领域有了很大进展,全自动转录的历史图像仍然缺乏进行有效纯文本索引和搜索所需的准确性。计算机辅助转录方法也无法大幅减少人力投入,使得半自动转录大型图像集变得不可行。
HTR 在处理实际历史文本图像时准确率较低,原因包括不可预测的布局、不均匀的行间距、高度可变的倾斜度以及模糊的阅读顺序等。这些问题的根源在于将图像笔画解释为实际文本元素或字形,并将这些字形组合成字符、单词、段落和整个文本文档时存在内在的不确定性。
<
超级会员免费看
订阅专栏 解锁全文
1418

被折叠的 条评论
为什么被折叠?



