密集对应与古代文本分析
1. 引言
近年来,大规模的数字化和保护工作产生了大量历史手稿图像。以欧洲历史为例,近百万本手稿书籍和无数档案文件从一千多年前留存至今。这些手稿是历史、文学、哲学、科学、医学以及艺术史的宝贵资料,也反映了抄写和修道院文化、书写系统的发展、语言演变等。虽然数字化存储为保护和获取这些信息提供了新途径,但搜索这些手稿图像档案仍是一项挑战。
与印刷文本图像不同,手稿图像除了特定脚本或语言的专家外,其他人很难阅读。它们通常使用古老语言书写,训练计算机系统识别或处理这些手稿面临训练数据有限的问题。此外,缩写、抄写符号、手稿质量下降、墨水渗透等问题,使得历史文献的光学字符识别(OCR)变得极为困难。
一些著名的手稿收藏,如死海古卷、希腊纸莎草纸、西奈抄本等,都面临着上述挑战。我们的目标是提出一个系统,确定转录文本与扫描手稿中匹配图像区域之间的逐字母映射,从而在字符层面上访问这些手稿图像。据我们所知,此前还没有完全自动的方法来完成这项任务。
在之前的应用中,密集对应用于从参考示例向查询图像传递语义信息。在这里,我们使用相同的方法将字符标签从合成参考图像传递到手稿图像。我们的系统不尝试学习识别手稿中的字形,通过直接匹配历史图像和从文本生成的合成图像的像素,避免了字母分割的问题。通过将参考图像中已知的像素字符标签传递到历史文档图像,我们可以获得每个字母的范围(即分割)。
我们的系统在多种脚本、书写方向、书写风格和语言的手稿图像上进行了测试。此外,我们还讨论了如何通过手动纠正错误对应关系来提高从一行到下一行的对应估计质量。
2. 相关工作
虽然之前有关于文本与相同文本图像匹配的工作,但与自动文本
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



