86、语言模型错误率分布估计与字符串中位数编辑方案

语言模型错误率分布估计与字符串中位数编辑方案

在文本处理和模式识别领域,语言模型的错误率分布估计以及数据集的编辑处理是两个重要的研究方向。本文将介绍一种语言模型错误率分布的估计方法,以及一种基于快速双字符串中位数计算的新数据集编辑方案。

语言模型错误率分布估计

在不同的语言模型中,通过错误纠正解析(ECP)等方法得到的分布差异很大。这使得选择一个一致的拒绝阈值变得非常困难,因为对于给定的阈值,接受和拒绝的字符串数量会因语言模型的特性而有很大不同,并且稍微移动阈值就可能导致接受/拒绝字符串比例的不可预测变化。因此,需要一个更具可预测性的置信指数。

为了估计测试样本的错误率分布与转换成本之间的函数关系,提出了以下步骤:
1. 从一种语言的手动标记的光学字符识别(OCR)假设字符串的代表性样本中获取一组转换成本,学习与每个成本相关的错误率(错误率分布),然后用这些信息为同一语言的新样本找到拒绝阈值。
2. 当系统中定义新的语言模型时,提出一种仅使用通过回归技术直接在语言模型上测量的特征来估计其错误率分布的自动方法,避免了获取、OCR处理和手动验证大量字符串这一耗时的过程。

语言模型错误率分布建模

给定一个语言模型和使用后处理算法从代表性OCR假设字符串样本中获得的一组转换成本(这些样本的真实转录已手动获取),可以使用以下公式计算不同成本c的平滑错误率直方图$H_E(c)$:
$H_E(c, w) = \frac{|S^- {c,w}|}{|S {c,w}|}$
其中,w是平滑窗口大小参数,$|S^- {c}|$是在成本介于$c - w$和$c + w$之间时被“错误纠正”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值