大模型评估
文章平均质量分 96
丁学文武
打球、跑步、徒步、露营️、骑行、滑雪️、游泳、冲浪
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型必知基础知识:13、大语言模型性能评估方法
本文介绍了大语言模型性能评估的方法体系,涵盖分类、回归、语言模型和文本生成四大任务的评估指标。分类任务采用准确率、精确率、召回率和F1分数;回归任务使用MAE、MSE、RMSE和MAPE;语言模型侧重交叉熵和困惑度;文本生成任务则使用BLEU等指标。文章还探讨了人工评估、大模型自动评估和对比评估等评估方法的选择与应用,为全面评估大模型性能提供了系统指导。原创 2025-10-22 07:30:00 · 1604 阅读 · 0 评论 -
大模型必知基础知识:12、大语言模型能力评估体系
本文系统介绍了大语言模型能力评估体系,从三个核心维度展开:知识与能力评估(包括任务导向的HELM框架和人类认知导向的AGIEval)、伦理与安全评估(涵盖3H原则、安全数据集、指令攻防和偏见检测)、垂直领域评估(针对复杂推理、环境交互和专业应用)。文章强调了大模型评估与传统NLP评估的本质区别,提出了多维度、系统化的评估框架,为客观衡量大模型性能提供了方法论指导,同时指出了未来评估工作向多语言、专业化方向发展的趋势。原创 2025-10-22 07:15:00 · 920 阅读 · 0 评论
分享