该文章聚焦医疗领域大语言模型(LLMs)的性别偏见问题,核心是探究为LLMs分配不同性别角色后,其临床诊断及对患者性别重要性的判断是否存在一致性差异,最终提出需通过常规身份分配一致性检查保障AI辅助医疗的公平可靠。
一、文章主要内容
- 研究背景:LLMs在医疗领域应用广泛,但易受偏见影响。历史上患者性别、医生性别会影响临床决策与治疗结果,而LLMs扮演临床角色时,其分配的性别是否引发偏见尚未被充分研究。
- 研究方法:
- 数据与模型:采用2020年1月至2024年2月NEJM图像挑战赛的117个病例(经GPT-4V验证图像解读正确),涵盖8个医疗专科;选取6个LLMs,包括3个开源模型(Gemma-2-2B、Phi-4-mini、LLaMA-3.1-8B)和3个专有模型(OpenAI o3-mini、GPT-4.1、Gemini 2.5 Pro)。
- 实验设计:为每个LLM分配女性、男性、未指定三种性别角色,从诊断结果一致性、对患者性别相关性和必要性的判断一致性两个维度评估。
- 分析指标:计算诊断准确率(LLM诊断与真实结果匹配比例)、一致性率(不同性别角色下输出相同的病例比例)、相关性率(认为患者性别与诊断相关的病例比例)、必要性率(认为患者性别对诊断必要的病例比例),并通过Bootstrap估计置信区间、Cochran’s Q检验分析差异显著性。
- 研究结果

订阅专栏 解锁全文
64

被折叠的 条评论
为什么被折叠?



