本文是LLM系列文章,针对《Measuring Social Norms of Large Language Models》的翻译。
摘要
我们提出了一个新的挑战,即检验大型语言模型是否理解社会规范。与现有的数据集相比,我们的数据集需要对社会规范有基本的了解才能解决。我们的数据集包含了最大的一组社会规范技能,包括402项技能和12383个问题,涵盖了从意见和论点到文化和法律的广泛社会规范。我们根据K-12课程设计我们的数据集。这使得能够将大型语言模型的社会理解与人类,更具体地说,与小学生进行直接比较。虽然之前的工作在我们的基准测试中产生了近乎随机的准确性,但最近的大型语言模型,如GPT3.5-Turbo和LLaMA2 Chat,能够显著提高性能,仅略低于人类的性能。然后,我们提出了一种基于大型语言模型的多智能体框架,以提高模型理解社会规范的能力。这种方法进一步改进了大型语言模型,使其与人类相当。鉴于大型语言模型在现实世界中的应用越来越多,我们的发现尤为重要,并为未来的改进提供了独特的方向。