目录
1.1 特定任务指标(Task-Specific Metrics)
1.2 研究机构发布的基准(Research Benchmarks)
1.3 LLM自我评估(LLM Self-Evaluation)
前言
第一章节介绍了机器学习(Machine Learning, ML)和深度学习(Deep Learning,DL)领域评估指标,包含分类任务、预测任务、回归任务、常用损失值;第二章节介绍了大语言模型(LLMs)领域评测指标;第三章节介绍了多模态(MLLMs)领域评估指标;第四章节介绍了知识召回业务领域的评估指标。
一、机器学习&深度学习——评估指标
(懒得写,查了十几篇资料,看筛出的如下两个blog就够了,毕竟没必要重复造轮子bushi)
1. 评估指标分类
上图,机器学习模型的评估指标分预测任务、分类任务、回归任务、常用损失函数四个部分介绍。详情转至该章节链接Link 1。
2. 分类任务评估指标
其中,在分类任务中,常见评估指标有:混淆矩阵(Confuse Matrix)、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、P-R曲线(Precision-Recall Curve)、F1 Score、ROC、AUC,指标计算详情转至Link 2。
3. 在预测/回归任务中,MSE、MAE、RMSE三者区别
(该片段摘抄自该章节Link 1)
3.1 MSE计算简便,但MAE对异常点具有更好的鲁棒性,RMSE是MSE的平方根,与MAE在同一量级;
3.2 MSE对误差取了平方(令e=真实值-预测值),因此若e>1,则MSE会进一步增大误差。如果数据中存在异常点,那么e值就会很大,而e则会远大于|e|。因此,相对于使用MAE计算损失,使用MSE的模型会赋予异常点更大的权重;
3.3 用RMSE计算损失的模型会以牺牲了其他样本的误差为代价,朝着减小异常点误差的方向更新,然而这就会降低模型的整体性能。如果训练数据被异常点所污染,那么MAE损失就更好用。
3.4 MAE存在一个严重的问题(特别是对于神经网络):更新的梯度始终相同,也就是说,即使对于很小的损失值,梯度也很大,这样不利于模型的学习。为了解决这个缺陷,可以使用变化的学习率,在损失接近最小值时降低学习率。而MSE在这种情况下的表现就很好,即便使用固定的学习率也可以有效收敛。MSE损失的梯度随损失增大而增大,而损失趋于0时则会减小。这使得在训练