
LLM(大语言模型)评测指标
文章平均质量分 74
ChenDuBr
这个作者很懒,什么都没留下…
展开
-
LLM(大语言模型)常用评测指标-困惑度(Perplexity)
困惑度(Perplexity)是自然语言处理(NLP)中常用的一种评估语言模型的指标。它衡量的是模型对测试数据的预测能力,即模型对测试集中单词序列出现概率的预测准确度。困惑度越低,表示模型对数据的预测越准确。原创 2024-03-11 11:05:42 · 6852 阅读 · 0 评论 -
LLM(大语言模型)常用评测指标-BLEU
BLEU 是一种广泛用于自然语言处理领域,特别是在机器翻译评估中的评分方法。它通过比较机器翻译输出和一个或多个人工翻译的参考翻译来计算分数,以此来评估翻译的质量。原创 2024-03-11 09:22:53 · 3233 阅读 · 0 评论 -
LLM(大语言模型)常用评测指标之F1-Score
F1-Score 是一种常用于评估分类模型性能的指标,特别是在数据不平衡的情况下。它是精确度 (Precision) 和召回率 (Recall) 的调和平均值,用于衡量模型对正类的预测能力。其中,TP (True Positives) 是真正类的数量,FP (False Positives) 是假正类的数量。因此,该模型的 F1-Score 为 0.761,反映了模型在平衡精确度和召回率方面的性能。:是指正确预测为正类的数量与所有预测为正类的数量之比。:是指正确预测为正类的数量与实际正类的数量之比。原创 2024-03-10 16:44:52 · 2710 阅读 · 0 评论 -
LLM(大语言模型)常用评测指标-MAP
MAP (平均平均精度) 是一种常用于评估信息检索系统、推荐系统或其他排名模型的性能指标。它特别适用于任务中涉及到返回一组排序结果的场景,如搜索引擎、推荐系统、图像检索等。原创 2024-03-10 16:40:25 · 824 阅读 · 0 评论 -
LLM(大语言模型)常用评测指标-MAP@R
MAP@R 通常用于评估搜索引擎、推荐系统、文本检索、图像检索等领域中的模型性能,特别是在关注顶部结果的精确性时。原创 2024-03-10 16:33:40 · 696 阅读 · 0 评论