模型评估
常用的评估指标
错误率可以按照如下公式计算:
W
E
R
=
N
sub
W
+
N
d
e
l
W
+
N
i
n
s
W
N
W
=
N
sub
W
+
N
d
e
l
W
+
N
i
n
s
W
N
sub
W
+
N
d
e
l
W
+
N
cor
W
W E R=\frac{N_{\text {sub }}^{W}+N_{d e l}^{W}+N_{i n s}^{W}}{N^{W}}=\frac{N_{\text {sub }}^{W}+N_{d e l}^{W}+N_{i n s}^{W}}{N_{\text {sub }}^{W}+N_{d e l}^{W}+N_{\text {cor }}^{W}}
WER=NWNsub W+NdelW+NinsW=Nsub W+NdelW+Ncor WNsub W+NdelW+NinsW
其中:
N
sub
W
N_{\text {sub }}^{W}
Nsub W符号替换的数量
N
del
W
N_{\text {del}}^{W}
NdelW符号缺少的数量
N
ins
W
N_{\text {ins }}^{W}
Nins W符号插入的数量
N
col
W
N_{\text {col }}^{W}
Ncol W符号正确的数量
N
W
N^{W}
NW目标生成的符号数量
忽略手写体影响评估模型的泛化能力
为了评估模型在结构上的泛化能力,为了缓解手写手写体在符号上的干扰,我们使用公式印刷体来评估。使用的是CROHME给的官方训练集,以及CROHME2014测试集。
其中WER指标是3.938%,公式的正确率是91.582%。
手写公式的评估
下面的评估仍然是采用CROHME给的官方训练集,以及CROHME2014官方测试集。
是否添加数据扩增模块 | WER | 正确率 |
---|---|---|
否 | 15.74% | 50.40% |
是 | 15.15% | 51.52% |
可以看出,添加规模扩增模块,WER下降了0.59%,正确率提高了1.12%。
另外,我们测试了不同LATEX序列长度的公式正确率对比:
序列长度 | WER | 正确率 |
---|---|---|
0~10 | 12.64% | 61.66% |
11~20 | 11.87% | 43.60% |
21~30 | 14.52% | 27.44% |
30~ | 11.08% | 11.19% |
从实验结果可以看到,错误率指标不会因为序列长度的增加而增加,说明模型的泛化能力相对较好;但是整个公式的正确率会随着长度的增加而降低,这主要是因为符号的绝对数量变多,二义性符号出现的概率也更大,因此会导致模型的准确率降低。
结合印刷体和手写体的结果评估结果,如果手写体公式相对工整,那么模型的正确率是可以达到90%的。