本文是LLM系列文章,针对《TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs》的翻译。
摘要
大型语言模型(LLM)在各种自然语言任务中表现出了令人印象深刻的能力。然而,评估它们与人类偏好的一致性仍然是一个挑战。为此,我们提出了一个全面的人类评估框架,以评估LLM在不同现实世界任务中遵循指示的熟练程度。我们构建了一个包含7个主要领域的分层任务树,涵盖200多个类别和800多个任务,涵盖了问答、推理、多回合对话和文本生成等多种能力,以全面深入地评估LLM。我们还设计了详细的评估标准和流程,以促进人类评估者做出一致、公正的判断。3000多个测试集实例发布,跨越不同的难度级别和知识领域。我们的工作提供了一种标准化的方法来评估英语和汉语LLM中的人的一致性。我们还分析了使用强LLM(GPT-4)。我们的框架支持对LLM进行全面评估,因为它们被集成到现实世界的应用程序中。我们已经公开了任务树、TencentLLMEval数据集和评估方法,这些数据集已被证明在评估腾讯混元LLM的性能方面是有效的。通过这样做,我们的目标是促进安全和符合人类需求的LLM开发进展的基准测试。
1 引言
2 方法
3 实验
4 相关工作
5 结论和未来工作
我们提出了一个全面的人类评估框架和基准,以评估大型语言模型在不同现实世界任务中遵循指令的能力。我们构建了一个包含7个主要领域、200多个类别和800多个子任务的分层任务树,以结构化、深入的方式评估模型。此外,这项工作提出了一套详细的人类评估标准和过程,以促进一致和公正的判断。评估方
本文介绍了一个评估大型语言模型(LLM)与人类偏好一致性的框架——TencentLLMEval。该框架包括一个覆盖7个领域、200多个类别和800多个任务的分层任务树,用于全面评估LLM在问答、推理等任务中的能力。通过详细的标准和流程,确保了评估的一致性和公正性。此框架已应用于腾讯的混元助手,并提供了标准化的评估方法,以推动安全、符合人类需求的LLM发展。
已下架不支持订阅
598

被折叠的 条评论
为什么被折叠?



