大模型评价标准

最新推荐文章于 2025-06-05 17:28:30 发布

置顶

空白II

最新推荐文章于 2025-06-05 17:28:30 发布

阅读量1.6k

点赞数 22

CC 4.0 BY-SA版权

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_48717745/article/details/141861583

大模型评价标准总结

1 算法自动评价

算法自动评价类中，根据各标准针对的算法不同特性，可分为准确度(Accuracy)、标定性(Calibration)、公平性(Fairness)以及鲁棒性(robustness)。其中包含的确切指标可细分如下：

1.1 准确度(Accuracy):

exact match (EM). 这个指标可被译为确切匹配，是根据大模型给出的结果与标准值之间的匹配度来计算的，完全匹配时，EM值为1，不完全匹配时，EM值为0，但匹配比较呆板，可以设定一个阈值，来衡量完全匹配这个概念，比如：
$EM_{h} = \begin{cases}1, \delta \geq h, \\0, \delta < h,\end{cases}$
其中， $\delta$ 为大模型给出的结果与标准值之间的匹配比例， $h$ 为匹配度阈值，大于等于该阈值时，即 $\delta \geq h$ ，判定为确切匹配，有 $EM_{h} = 1$ ；小于该阈值时，即 $\delta < h$ ，不判定为确切匹配，有 $EM_h = 0$ 。
F1 score. 这个指标为基于深度学习的方法常用的评价指标，也可被用于大模型的实际效果评估，
$F_1 = \frac{2\times \text{Precision}\times \text{Recall}}{\text{Precision}+\text{Recall}},$
其中， $\text{Precision}$ 为精确率， $\text{Recall}$ 为召回率，其计算分别为
$\text{Precision}=\frac{TP}{TP+FP}, \text{Recall}=\frac{TP}{TP+FN}$

其中，TP(True positive)为真正例，TN(True nagative)为真负例，FP(False positive)为假正例，FN(False nagative)为假负例。简单来说就是预测正确的样本数量，除以全部的样本数量。即精确率可被解释为：在被识别为正类别的样本中，识别正确的比例。召回率可被解释为：在所有正类别样本中，被正确识别为正类别的比例。

对于一般的模型，精确率和召回率往往是此消彼长。也就是说，提高精确率通常会降低召回率，反之亦然。

而F1 score则为比较综合性的指标，其脱胎于F值，其计算公式为
$\frac{(1+a^2)\times \text{Precision}\times \text{Recall}}{a^2 \times (\text{Precision}+\text{Recall})},$
其中，权重因子 $a$ 的值取1时，即变为F1 score。
ROUGE. 此指标有确切的来源论文，GOOGLE学术引用16046次[1]，是学术界认可的评价指标之一。ROGUE是Recall-Oriented Understudy for Gisting Evaluation的简写，译为：基于召回率的主旨评估替补。原论文中主要介绍了4种ROGUE，分别为：ROUGE-N (N-gram Co-Occurrence Statistics, N-gram共现统计), ROUGE-L ( Longest Common Subsequence, LCS, 最长公共子序列), ROUGE-W ( Weighted Longest Common Subsequence, WLCS, 加权最长公共子序列)以及ROUGE-S ( Skip-Bigram Co-Occurrence Statistics, Skip-Bigram共现统计)，其中最常用的为ROUGE-N和ROUGE-L，此处仅介绍这两种，其他种类请参阅原文[1].

ROUGE-N的表达式为
$\text{ROUGE-N}=\frac{\sum_{S\in\{ReferenceSummaries\}}\sum_{gram_n\in S} \text{Count}_{match}(gram_n)}{\sum_{S\in\{ReferenceSummaries\}}\sum_{gram_n\in S}\text{Count}(gram_n)},$
其中， $n$ 为共现统计的长度，即统计对象的出现次数。 $\text{Count}_{match}(gram_n)$ 为大模型输出结果和一组参考真值中同时出现的n-gram共现统计的最大数量。 $\text{Count}(gram_n)$ 为参考结果中的n-gram共现统计总数量。

ROUGE-L的表达式为
$\text{ROUGE-L}=\frac{\text{LCS}(candidate,reference)}{\text{length}(reference)},$
其中， $\text{LCS}(\cdot, \cdot)$ 表示大模型输出结果和参考真值之间的最长公共子序列长度, $\text{length}(reference)$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

空白II 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。