主要内容
- 提出BEATS框架:为检测和衡量大语言模型(LLMs)中的偏见、伦理、公平性和真实性(BEFF指标),提出BEATS(Bias Evaluation and Assessment Test Suite)框架,该框架通过量化基准评估LLMs在这些方面的表现,采用由901个评估问题组成的数据集,涵盖多种偏见类型。
- 研究方法:使用多个领先的LLMs作为评估者,对选定的LLMs进行评估,通过推理获取模型响应并存储在数据库中,依据预定义的JSON格式指标对响应进行分析,包括偏见检测、公平性评估、伦理一致性评估和真实性评估,采用探索性数据分析(EDA)、方差分析(ANOVA)等统计方法进行研究。
- 关键发现:实验结果显示,37.65%的行业领先模型输出存在某种形式的偏见,不同类型偏见的出现频率和严重程度各异。在伦理方面,模型总体虽与伦理原则有一定程度的契合,但仍存在部分伦理失准的情况。公平性方面,多数模型响应较为公平,但特定情况下仍有不公平现象。真实性方面,模型虽大多能产生正确内容,但仍有信息错误和误导的风险。
- 局限性:研究存在局限性,如LLMs的随机和非确定性导致模型响应和评估得分存在差异;利用LLMs衡量事实性存在问题,缺乏事实核查的金标准;使用LLMs作为评估者可能存在文化偏见,评估分数可能不具有全球性