TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs

828 篇文章

已下架不支持订阅

本文介绍了一个评估大型语言模型(LLM)与人类偏好一致性的框架——TencentLLMEval。该框架包括一个覆盖7个领域、200多个类别和800多个任务的分层任务树,用于全面评估LLM在问答、推理等任务中的能力。通过详细的标准和流程,确保了评估的一致性和公正性。此框架已应用于腾讯的混元助手,并提供了标准化的评估方法,以推动安全、符合人类需求的LLM发展。

本文是LLM系列文章,针对《TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs》的翻译。

TencentLLMEval:现实世界能力的层次评估适用于符合人类要求的LLM

摘要

大型语言模型(LLM)在各种自然语言任务中表现出了令人印象深刻的能力。然而,评估它们与人类偏好的一致性仍然是一个挑战。为此,我们提出了一个全面的人类评估框架,以评估LLM在不同现实世界任务中遵循指示的熟练程度。我们构建了一个包含7个主要领域的分层任务树,涵盖200多个类别和800多个任务,涵盖了问答、推理、多回合对话和文本生成等多种能力,以全面深入地评估LLM。我们还设计了详细的评估标准和流程,以促进人类评估者做出一致、公正的判断。3000多个测试集实例发布,跨越不同的难度级别和知识领域。我们的工作提供了一种标准化的方法来评估英语和汉语LLM中的人的一致性。我们还分析了使用强LLM(GPT-4)。我们的框架支持对LLM进行全面评估,因为它们被集成到现实世界的应用程序中。我们已经公开了任务树、TencentLLMEval数据集和评估方法,这些数据集已被证明在评估腾讯混元LLM的性能方面是有效的。通过这样做,我们的目标是促进安全和符合人类需求的LLM开发进展的基准测试。

1 引言

2 方法

3 实验

4 相关工作

5 结论和未来工作

我们提出了一个全面的人类评估框架和基准,以评估大型语言模型在不同现实世界任务中遵循指令的能力。我们构建了一个包含7个主要领域、200多个类别和800多个子任务的分层任务树,以结构化、深入的方式评估模型。此外,这项工作提出了一套详细的人类评估标准和过程,以促进一致和公正的判断。评估方

已下架不支持订阅

HIVT(Hierarchical Vector Transformer for Multi-Agent Motion Prediction)是一种用于多智能体运动预测的分层向量变换器。该模型使用了向量变换器(Vector Transformer)的层级架构,用于对多智能体的运动轨迹进行预测。 HIVT模型旨在解决多智能体之间相互影响和合作的问题。在多智能体系统中,智能体之间的运动和行为往往会相互影响,因此准确预测智能体的运动轨迹变得非常重要。传统的方法往往难以捕捉到智能体之间的复杂相互作用和外部环境的影响,而HIVT模型通过分层向量变换器的架构,可以更好地捕捉到多智能体系统中的相互作用。 HIVT模型首先使用一个全局的向量变换器来处理整个多智能体系统的运动轨迹,以捕捉全局的趋势和相互作用。然后,对于每个智能体,模型使用一个局部的向量变换器来预测其个体的运动轨迹,以考虑个体特定的动态特征和周围智能体的影响。 通过分层向量变换器的架构,HIVT模型能够更好地处理多智能体系统中的动态变化和相互作用,提高了运动轨迹预测的准确性。同时,该模型还可以应用于多个领域,如智能交通、无人机团队协作等。 总而言之,HIVT模型是一种基于分层向量变换器的多智能体运动预测方法,通过捕捉多智能体系统中的相互作用和全局趋势,提高了运动轨迹预测的准确性和适用性。该模型在多个领域具有广泛的应用前景。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值