项目实训十五

本文探讨了在Python项目实训中,模型评估的方法和指标,重点关注错误率(WER)的计算,并分析了如何忽略手写体影响以评估模型的泛化能力。通过使用CROHME数据集,模型在印刷体和手写体公式上的表现被详细比较,结果显示模型在序列长度增加时保持了较好的泛化能力,但整体正确率会受到公式长度和二义性符号的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

模型评估

常用的评估指标

错误率可以按照如下公式计算:
W E R = N sub  W + N d e l W + N i n s W N W = N sub  W + N d e l W + N i n s W N sub  W + N d e l W + N cor  W W E R=\frac{N_{\text {sub }}^{W}+N_{d e l}^{W}+N_{i n s}^{W}}{N^{W}}=\frac{N_{\text {sub }}^{W}+N_{d e l}^{W}+N_{i n s}^{W}}{N_{\text {sub }}^{W}+N_{d e l}^{W}+N_{\text {cor }}^{W}} WER=NWNsub W+NdelW+NinsW=Nsub W+NdelW+Ncor WNsub W+NdelW+NinsW
其中:
N sub  W N_{\text {sub }}^{W} Nsub W符号替换的数量
N del W N_{\text {del}}^{W} NdelW符号缺少的数量
N ins  W N_{\text {ins }}^{W} Nins W符号插入的数量
N col  W N_{\text {col }}^{W} Ncol W符号正确的数量
N W N^{W} NW目标生成的符号数量

忽略手写体影响评估模型的泛化能力

为了评估模型在结构上的泛化能力,为了缓解手写手写体在符号上的干扰,我们使用公式印刷体来评估。使用的是CROHME给的官方训练集,以及CROHME2014测试集。
其中WER指标是3.938%,公式的正确率是91.582%。

手写公式的评估

下面的评估仍然是采用CROHME给的官方训练集,以及CROHME2014官方测试集。

是否添加数据扩增模块WER正确率
15.74%50.40%
15.15%51.52%

可以看出,添加规模扩增模块,WER下降了0.59%,正确率提高了1.12%。

另外,我们测试了不同LATEX序列长度的公式正确率对比:

序列长度WER正确率
0~1012.64%61.66%
11~2011.87%43.60%
21~3014.52%27.44%
30~11.08%11.19%

从实验结果可以看到,错误率指标不会因为序列长度的增加而增加,说明模型的泛化能力相对较好;但是整个公式的正确率会随着长度的增加而降低,这主要是因为符号的绝对数量变多,二义性符号出现的概率也更大,因此会导致模型的准确率降低。

结合印刷体和手写体的结果评估结果,如果手写体公式相对工整,那么模型的正确率是可以达到90%的。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值