PsychoBench:评估大型语言模型的心理描绘能力

PsychoBench:评估大型语言模型的心理描绘能力

PsychoBench Benchmarking LLMs' Psychological Portray. PsychoBench 项目地址: https://gitcode.com/gh_mirrors/ps/PsychoBench

项目介绍

PsychoBench 是一个用于评估大型语言模型(LLM)心理描绘能力的研究工具。它通过一系列精心设计的问卷,对LLM进行心理特征分析,从而揭示其人格特质、情感智力等方面的表现。该项目的目的是为了更好地理解和提升LLM的心理仿真能力,进一步推动人工智能技术在心理学领域的应用。

项目技术分析

PsychoBench 基于Python开发,使用了多种心理测量问卷,如Big Five Inventory、Dark Triad Dirty Dozen、Eysenck Personality Questionnaire-Revised等。用户可以通过命令行参数选择不同的问卷和模型进行测试。项目支持多种LLM模型,如GPT-3.5-turbo,用户也可以自定义模型进行测试。

项目的技术架构包括:

  1. 问卷处理:根据用户选择的问卷,生成相应的测试问题。
  2. 模型测试:使用用户指定的LLM模型回答问题,并记录答案。
  3. 结果分析:对LLM的回答进行统计分析,与人类回答进行对比。

项目及技术应用场景

PsychoBench 的主要应用场景包括:

  1. 学术研究:心理学者可以使用PsychoBench来评估LLM在模拟人类心理特征方面的能力,为心理学研究提供新的工具。
  2. 模型优化:AI开发者和工程师可以使用PsychoBench来诊断LLM的心理描绘问题,从而优化模型设计和训练。
  3. 教育应用:教育工作者可以使用PsychoBench来教育学生如何理解和评估LLM的心理描绘能力。

项目特点

  1. 多问卷支持:PsychoBench 支持多种心理测量问卷,用户可以根据需要选择合适的问卷进行测试。
  2. 灵活的测试模式:用户可以自定义测试次数和问题顺序的随机化次数,以获得更全面的测试结果。
  3. 易于自定义:** 用户可以轻松替换内置的生成器函数,使用自己的LLM模型进行测试。
  4. 详尽的结果分析:PsychoBench 提供了详细的测试结果统计,包括均值、标准差等,帮助用户深入理解模型表现。

以下是一个示例运行结果:

| Category | gpt-4 (n = 10) | Male (n = 693) | Female (n = 878) | | :------------ | :------------: | :------------: | :--------------: | | Extraversion | 13.9 ± 4.3 | 12.5 ± 6.0 | 14.1 ± 5.1 | | Pschoticism | 17.8 ± 2.1 | 7.2 ± 4.6 | 5.7 ± 3.9 | | Neuroticism | 3.9 ± 6.0 | 10.5 ± 5.8 | 12.5 ± 5.1 | | Lying | 7.0 ± 2.1 | 7.1 ± 4.3 | 6.9 ± 4.0 |

这一结果显示了不同性别的人类和LLM在各个心理特质上的得分差异。

总结来说,PsychoBench 是一个功能强大、易于使用的研究工具,它为LLM的心理描绘能力评估提供了一个全新的视角。通过PsychoBench,研究者和开发者可以更深入地理解LLM的心理模拟能力,为未来的研究和应用提供宝贵的数据和见解。

PsychoBench Benchmarking LLMs' Psychological Portray. PsychoBench 项目地址: https://gitcode.com/gh_mirrors/ps/PsychoBench

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

武允倩

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值