题目
使用心身医学考试题目评估 ChatGPT 对布鲁姆分类法的掌握程度:混合方法研究
论文地址:https://www.jmir.org/2024/1/e52113
摘要
GPT-4(生成式预训练 Transformer 4)等大型语言模型在医学和医学教育中的应用越来越广泛。然而,这些模型容易产生“幻觉”(即输出看似令人信服但实际上并不正确)。目前尚不清楚大型语言模型的这些错误与布鲁姆分类法中定义的不同认知水平有何关系。目的:本研究旨在使用心身医学考试问题探索 GPT-4 在布鲁姆分类法方面的表现。方法:我们使用了一个大型心身医学多项选择题数据集(N=307),其真实结果来自医学院考试。GPT-4 使用两个不同的提示版本回答多项选择题:详细和简短。使用定量方法和定性方法分析答案。针对回答错误的问题,我们根据布鲁姆分类法的层次框架对推理错误进行分类。结果:GPT-4 在回答考试问题时的表现取得了很高的成功率:详细提示的成功率为 93% (284/307),简短提示的成功率为 91% (278/307)。GPT-4 正确回答的问题在统计上明显比错误回答的问题难度更高 (详细提示的 P=.002,简短提示的 P<.001)。与提示无关,GPT-4 的最低考试成绩为 78.9% (15/19),因此始终超过“通过”的门槛。我们根据布鲁姆分类法对错误答案进行了定性分析,结果表明错误主要出现在“记忆”(29/68) 和“理解”(23/68) 认知层面;具体问题出现在回忆细节、理解概念关系和遵守标准化指南方面。结论:GPT-4 在处理心身医学多项选择题时表现出了惊人的成功率,这与之前的研究结果一致。通过布鲁姆分类法进行评估时,我们的数据显示,GPT-4 偶尔会忽略特定事实(记忆)、提供不合逻辑的推理(理解)或未能将概念应用于新情况(应用)。这些错误是自信地呈现的,可以归因于固有的模型偏差和产生最大化可能性的输出的倾向。
关键词 答案;人工智能;评估;布鲁姆分类法;ChatGPT;分类;错误;考试;检查;生成式;GPT-4;生成式预训练 Transformer 4;语言模型;学习成果;llm;MCQ;医学教育;医学考试;多项选择题;自然语言处理;NLP;心身;问题;回答;分类法
人工智能 (AI) 的最新发展对各个领域都有变革潜力,包括医学和医学教育。2022 年 11 月,OpenAI 推出了大型语言模型 (LLM) GPT-3 (Generative Pre-trained Transformer 3)。它的高质量表现甚至让专家都感到惊讶,并引起了公众的极大兴趣(特别是在学校和高等教育环境中,GPT-3 引发了关于其潜在好处和危害的多方面讨论)。在医学教育中,LLM 有可能彻底改变当前的教学方法,从而最终提高医生的表现和医疗保健结果。然而,在 LLM 彻底融入医学教育之前,必须全面评估它们在这种背景下的表现。在教育理论框架内评估 AI 和 LLM 的能力尤为重要。医学教育中最常用的框架之一是布鲁姆于 1956 年首次提出的学习成果分类法。简而言之,布鲁姆及其后来的同事开发了一种认知过程的层次分类,从低阶认知技能(如知识回忆 (remember) 和理解 (understand))到高阶思维(如应用 (apply)、分析 (analyze)、评估 (evaluate) 和创造 (create))。
自 1956 年首次出版以来,该分类法一直被用作教育讲师的通用语言,至今仍影响着医学教育领域。布鲁姆通过他的工作为现在的成果导向教育做出了重大贡献,并为其他教育理论奠定了基础,例如米勒的临床能力金字塔。虽然布鲁姆分类法被广泛使用,并提供了一种结构化的学习成果方法,但一些教育工作者认为,它的层次性可能并不总是代表学习的复杂性。尽管布鲁姆分类法源自人类的学习过程,但它提供了一个理想的框架来描述成功和失败背后的认知过程。最近,LLM在医学的各个领域(令人惊讶的是,大部分表现都很好)的表现得到了评估,从特定科目到董事会考试。然而,llm所犯的错误并没有得到详细评估。例如,虽然llm可能成功地回忆起事实(记住),但他们可能很难将这些事实应用到不同的环境中,反之亦然。
我们承认,使用“记住”和“挣扎”等术语是为了方便阅读而使用的拟人化说法,因为目前,LLM 既不提供上述功能,也仅使用“下一个词预测范式”根据语言使用统计概率生成答案。因此,我们旨在使用布鲁姆分类法来更好地理解 LLM 的失败之处。对于人类医学教育和前面提到的 LLM 用例,多项选择题 (MCQ) 仍然是主要的书面考试形式,用于总结性和形成性评估。在布鲁姆分类法中,MCQ 通常用于评估低阶认知技能,例如知识回忆 (remember) 和理解 (understand),但它们也可能探究高阶思维,例如应用 (apply)、分析 (analyze) 和评估 (evaluate)。因此&#x