语言模型错误率分布估计与字符串中位数编辑方案
在文本处理和模式识别领域,语言模型的错误率分布估计以及数据集的编辑处理是两个重要的研究方向。本文将介绍一种语言模型错误率分布的估计方法,以及一种基于快速双字符串中位数计算的新数据集编辑方案。
语言模型错误率分布估计
在不同的语言模型中,通过错误纠正解析(ECP)等方法得到的分布差异很大。这使得选择一个一致的拒绝阈值变得非常困难,因为对于给定的阈值,接受和拒绝的字符串数量会因语言模型的特性而有很大不同,并且稍微移动阈值就可能导致接受/拒绝字符串比例的不可预测变化。因此,需要一个更具可预测性的置信指数。
为了估计测试样本的错误率分布与转换成本之间的函数关系,提出了以下步骤:
1. 从一种语言的手动标记的光学字符识别(OCR)假设字符串的代表性样本中获取一组转换成本,学习与每个成本相关的错误率(错误率分布),然后用这些信息为同一语言的新样本找到拒绝阈值。
2. 当系统中定义新的语言模型时,提出一种仅使用通过回归技术直接在语言模型上测量的特征来估计其错误率分布的自动方法,避免了获取、OCR处理和手动验证大量字符串这一耗时的过程。
语言模型错误率分布建模
给定一个语言模型和使用后处理算法从代表性OCR假设字符串样本中获得的一组转换成本(这些样本的真实转录已手动获取),可以使用以下公式计算不同成本c的平滑错误率直方图$H_E(c)$:
$H_E(c, w) = \frac{|S^- {c,w}|}{|S {c,w}|}$
其中,w是平滑窗口大小参数,$|S^- {c}|$是在成本介于$c - w$和$c + w$之间时被“错误纠正”
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



