本文是LLM系列文章,针对《Assessing and Understanding Creativity in Large Language Models》的翻译。
摘要
在自然语言处理领域,大型语言模型(LLM)的快速发展引起了越来越多的关注。LLM在各种任务中都表现出了很高的创造力,但评估这种创造力的方法还不够。LLM创造力的评估需要考虑与人类的差异,需要在平衡准确性和效率的同时进行多维测量。本文旨在建立一个有效的框架来评估LLM的创造力水平。通过调整修改后的Torrance创造性思维测试,该研究评估了各种LLM在7项任务中的创造性表现,强调了4个标准,包括流利性、灵活性、独创性和精细化。在这种情况下,我们开发了一个包含700个问题的综合数据集,用于测试和基于LLM的评估方法。此外,本研究还对LLM对不同提示和角色扮演情况的反应进行了新的分析。我们发现LLM的创造力主要在独创性方面不足,而在精细化方面表现出色。此外,提示的使用和模型的角色扮演设置显著影响创造力。此外,实验结果还表明,多个LLM之间的协作可以增强独创性。值得注意的是,我们的研究结果揭示了人类评价和LLM之间关于影响创造力的人格特征的共识。研究结果强调了LLM设计对创造力的重大影响,并将人工智能和人类创造力连接起来,为LLM的创造力和潜在应用提供了见解。