28、密集对应与古代文本分析

最新推荐文章于 2025-12-16 01:25:14 发布

A3B4C5

最新推荐文章于 2025-12-16 01:25:14 发布

阅读量4

点赞数

CC 4.0 BY-SA版权

分类专栏：密集对应：视觉的桥梁文章标签：密集对应古代文本分析手稿图像

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/a3b4c5/article/details/155956763

密集对应：视觉的桥梁专栏收录该内容

29 篇文章 ¥99.00

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

密集对应与古代文本分析

1. 引言

近年来，大规模的数字化和保护工作产生了大量历史手稿图像。以欧洲历史为例，近百万本手稿书籍和无数档案文件从一千多年前留存至今。这些手稿是历史、文学、哲学、科学、医学以及艺术史的宝贵资料，也反映了抄写和修道院文化、书写系统的发展、语言演变等。虽然数字化存储为保护和获取这些信息提供了新途径，但搜索这些手稿图像档案仍是一项挑战。

与印刷文本图像不同，手稿图像除了特定脚本或语言的专家外，其他人很难阅读。它们通常使用古老语言书写，训练计算机系统识别或处理这些手稿面临训练数据有限的问题。此外，缩写、抄写符号、手稿质量下降、墨水渗透等问题，使得历史文献的光学字符识别（OCR）变得极为困难。

一些著名的手稿收藏，如死海古卷、希腊纸莎草纸、西奈抄本等，都面临着上述挑战。我们的目标是提出一个系统，确定转录文本与扫描手稿中匹配图像区域之间的逐字母映射，从而在字符层面上访问这些手稿图像。据我们所知，此前还没有完全自动的方法来完成这项任务。

在之前的应用中，密集对应用于从参考示例向查询图像传递语义信息。在这里，我们使用相同的方法将字符标签从合成参考图像传递到手稿图像。我们的系统不尝试学习识别手稿中的字形，通过直接匹配历史图像和从文本生成的合成图像的像素，避免了字母分割的问题。通过将参考图像中已知的像素字符标签传递到历史文档图像，我们可以获得每个字母的范围（即分割）。

我们的系统在多种脚本、书写方向、书写风格和语言的手稿图像上进行了测试。此外，我们还讨论了如何通过手动纠正错误对应关系来提高从一行到下一行的对应估计质量。

2. 相关工作

虽然之前有关于文本与相同文本图像匹配的工作，但与自动文本

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。