28、密集对应与古代文本分析

密集对应与古代文本分析

1. 引言

近年来,大规模的数字化和保护工作产生了大量历史手稿图像。以欧洲历史为例,近百万本手稿书籍和无数档案文件从一千多年前留存至今。这些手稿是历史、文学、哲学、科学、医学以及艺术史的宝贵资料,也反映了抄写和修道院文化、书写系统的发展、语言演变等。虽然数字化存储为保护和获取这些信息提供了新途径,但搜索这些手稿图像档案仍是一项挑战。

与印刷文本图像不同,手稿图像除了特定脚本或语言的专家外,其他人很难阅读。它们通常使用古老语言书写,训练计算机系统识别或处理这些手稿面临训练数据有限的问题。此外,缩写、抄写符号、手稿质量下降、墨水渗透等问题,使得历史文献的光学字符识别(OCR)变得极为困难。

一些著名的手稿收藏,如死海古卷、希腊纸莎草纸、西奈抄本等,都面临着上述挑战。我们的目标是提出一个系统,确定转录文本与扫描手稿中匹配图像区域之间的逐字母映射,从而在字符层面上访问这些手稿图像。据我们所知,此前还没有完全自动的方法来完成这项任务。

在之前的应用中,密集对应用于从参考示例向查询图像传递语义信息。在这里,我们使用相同的方法将字符标签从合成参考图像传递到手稿图像。我们的系统不尝试学习识别手稿中的字形,通过直接匹配历史图像和从文本生成的合成图像的像素,避免了字母分割的问题。通过将参考图像中已知的像素字符标签传递到历史文档图像,我们可以获得每个字母的范围(即分割)。

我们的系统在多种脚本、书写方向、书写风格和语言的手稿图像上进行了测试。此外,我们还讨论了如何通过手动纠正错误对应关系来提高从一行到下一行的对应估计质量。

2. 相关工作

虽然之前有关于文本与相同文本图像匹配的工作,但与自动文本

基于可靠性评估序贯蒙特卡洛模拟法的配电网可靠性评估研究(Matlab代码实现)内容概要:本文围绕“基于可靠性评估序贯蒙特卡洛模拟法的配电网可靠性评估研究”,介绍了利用Matlab代码实现配电网可靠性的仿真分析方法。重点采用序贯蒙特卡洛模拟法对配电网进行长时间段的状态抽样统计,通过模拟系统元件的故障修复过程,评估配电网的关键可靠性指标,如系统停电频率、停电持续时间、负荷点可靠性等。该方法能够有效处理复杂网络结构设备时序特性,提升评估精度,适用于含分布式电源、电动汽车等新型负荷接入的现代配电网。文中提供了完整的Matlab实现代码案例分析,便于复现和扩展应用。; 适合人群:具备电力系统基础知识和Matlab编程能力的高校研究生、科研人员及电力行业技术人员,尤其适合从事配电网规划、运行可靠性分析相关工作的人员; 使用场景及目标:①掌握序贯蒙特卡洛模拟法在电力系统可靠性评估中的基本原理实现流程;②学习如何通过Matlab构建配电网仿真模型并进行状态转移模拟;③应用于含新能源接入的复杂配电网可靠性定量评估优化设计; 阅读建议:建议结合文中提供的Matlab代码逐段调试运行,理解状态抽样、故障判断、修复逻辑及指标统计的具体实现方式,同时可扩展至不同网络结构或加入更多不确定性因素进行深化研究。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值