本文是LLM系列文章,针对《Characteristic AI Agents via Large Language Models》的翻译。
摘要
大型语言模型(LLM)的发展显著提高了聊天机器人系统的性能。许多研究人员致力于开发聊天机器人的特性。虽然已经有使用LLM开发角色驱动聊天机器人的商业产品,但值得注意的是,这一领域的学术研究仍然相对较少。我们的研究重点是通过模拟不同环境中的真实个体,研究LLM在构建特征人工智能代理方面的性能。目前的调查主要集中在扮演简单角色上。为了应对这一研究空白,我们为特征人工智能代理任务创建了一个基准,包括数据集、技术和评估指标。一个名为“Character100”的数据集是为这个基准构建的,它包括维基百科上访问量最大的人,用于语言模型的角色扮演。利用构建的数据集,我们对各种环境下的LLM进行了全面评估。此外,我们还设计了一套用于定量表现评估的自动指标。实验结果强调了LLM在构建特征人工智能代理方面进一步提高能力的潜在方向。该基准可在https://github.com/nuaa-nlp/Character100获得.

本文介绍了一种新任务——特征人工智能代理,通过大型语言模型(LLM)模拟真实个体,创建了包含106个知名人物的Character100数据集,并设计了自动评估指标。实验评估了LLM在构建个性化聊天机器人方面的性能。
订阅专栏 解锁全文
2263

被折叠的 条评论
为什么被折叠?



