Identifying Multiple Personalities in Large Language Models with External Evaluation

大型语言模型的外部评估：揭示多重人格

最新推荐文章于 2025-11-24 16:27:57 发布

UnknownBody

最新推荐文章于 2025-11-24 16:27:57 发布

阅读量107

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily 文章标签：语言模型自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/138494810

LLM Daily 专栏收录该内容

1689 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文探讨了使用外部评估方法分析大型语言模型（LLM）的人格，而非依赖自我评估测试。研究发现，LLM在不同情境下可以展示出不同的人格特征，与人类的稳定人格形成对比，强调了对LLM个性定义和测量方法的重新评估需求。

本文是LLM系列文章，针对《Identifying Multiple Personalities in Large Language Models
with External Evaluation》的翻译。

摘要

随着大型语言模型（LLM）与人类日常应用程序的快速集成，人们对LLM的行为提出了许多社会和伦理问题。理解LLM行为的方法之一是分析他们的个性。最近的许多研究使用为人类创建的自我评估测试来量化LLM的个性。然而，许多批评质疑这些自我评估测试在应用于LLM时的适用性和可靠性。在本文中，我们使用另一种人格测量方法来研究LLM的人格，我们称之为外部评估方法，其中，我们不是用Likert量表中的多项选择题来提示LLM，而是通过使用外部机器学习模型分析LLM对开放式情境问题的反应来评估LLM的性格。我们首先微调了一个Llama2-7B模型作为MBTI人格预测因子，该模型作为分析LLM反应的工具，优于最先进的模型。然后，我们向LLM提示情境问题，并要求他们分别生成推特帖子和评论，以评估他们在扮演两个不同角色时的个性。使用外部人格评估方法，我们发现LLM在生成帖子和评论时获得的人格类型显著不同，而人类在这两种不同的情况下表现出一致的人格特征。这表明LLM可以在不同的场景中表现出不同的个性，从而突出了LLM和人类个性之间的根本区别。在我们的工作中，我们呼吁重新评估LLM中的人格定义和测量。