ChatGPT误导患者不要就医,只因提问多打了一个空格

奕然 发自 凹非寺
量子位 | 公众号 QbitAI

只是因为提问时多打了一个空格,患者就被ChatGPT误导不要就医?

MIT一项新研究表明,如果患者跟AI沟通的时候,消息中包含拼写错误或者大白话,它更有可能建议你不要看医生。

更有甚者,研究还发现AI错误告诉女性不要看医生的比率高于男性。

为什么AI会存在理解偏见

有些看似微不足道的细节,或许是影响医疗AI机器人理解的关键。

比如单词之间多了一个空格,或者患者使用了俚语或俏皮话。

除此之外,人们模糊地不确定地表达医学概念的时候,AI理解存在偏差或者错误的可能性更高,尤其对于不能使用母语的人来说。

但是,面对专业的医学术语,咱们普通老百姓也只能模糊表达啊。

文字沟通上的问题固然无奈,但AI建议背后的偏见更是个问题。

女性跟男性被AI错误告知的比例压根没法比,女性被告诉不要看医生的比例高于男性。

按性别划分临床准确率差距(男性-女性)

上图展示了按性别划分的临床准确率差距结果,蓝色条形表示扰动(或基线)情况下,误差线显著性水平为𝑝<0.007,男性患者的临床准确率高于女性患者

为何会出现这样的比例,作者怀疑这是否与现实生活中的医生往往淡化女性的医疗投诉有关。

进一步研究:“非临床信息”的沟通

为了弄清楚以上问题,MIT的研究人员评估了四个模型,包括OpenAI的GPT-4、Meta的开源LLama-3-70b,以及一个名为Palmyra-Med的医疗AI

为了测试它们,研究人员使用真实患者投诉(来自医疗数据库)、Reddit上的健康帖子以及一些AI生成的患者案例,模拟了数千个患者案例

在把案例“喂”给AI模型之前,研究人员添加了一些“干扰项”,比如使用感叹号、全部小写输入、多种语言风格(如夸张语气)、不确定语言(如“可能”)以及使用性别中性的代词。

患者沟通方式案例图

这些“干扰项”并未影响患者回答中的临床数据。

结果来说,当面对以上“干扰”的时候,它们更有可能在7%到9%的范围内建议患者自行管理症状,而不是去看医生。

模型导致的临床准确性差异

上图显示了与基线水平准确性的差异,误差线构建于p<0.007,即模型导致的临床准确性下降。

还有一种解释,医疗大语言模型(LLMs)依赖于医学文献的训练,即接收的都是专业的标准化的“临床信息”,面对日常生活中患者沟通表达的非标准化的、多元的“非临床信息”,大模型没经验,无法提炼。

无论怎么说,很显然,AI模型被非标准的书写方式改变了认知。

AI医疗偏见会带来什么问题

医疗AI聊天机器人应用在医院、诊所等场景已经非常常见了,比如智慧导诊、安排预约、回答简单医学问题等,还会根据患者告诉的信息进行分诊。

但是,人们开始怀疑把生命交给经常误解信息并编AI造事实然后下判断的AI模型是否可靠。

更重要的是,“隐形”的AI偏见在未来可能带来更严重的问题。

未参与该研究的加州大学圣地亚哥分校健康学院(UC San Diego Health)的Karandeep Singh表示,“隐性的偏见会改变AI建议的语气和内容,而这可能导致医疗资源分配上出现微妙但重要的差异”。

这项研究的合著者、麻省理工学院EECS副教授Marzyeh Ghassemi表示,这就是医疗大模型行业应用之前必须经过审核的原因

但是,解决这些问题并不容易。

随着AI在各行各业的深度应用,大型语言模型(LLMs)也越来越多地被应用于临床环境,并开发多种健康应用,比如慢性病管理、诊断辅助以及文档记录、账单处理和患者沟通等行政任务;甚至使用LLMs辅助临床决策。

这项研究想要评估,LLMs在临床应用中推理能力的关键作用。

结果也显示,LLMs在医疗应用中显示出巨大潜力。

但研究人员希望他们的工作能激发AI在临床应用中的深度研究,比如对理解临床LLMs推理,考虑非临床信息在决策中的有意义的影响,以及推动在部署患者-人工智能系统之前进行更严格的审核的研究

参考链接
[1]https://futurism.com/ai-something-bizarre-typos
[2]https://dl.acm.org/doi/pdf/10.1145/3715275.3732121

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

专属AI产品从业者的实名社群,只聊AI产品最落地的真问题  扫码添加小助手,发送「姓名+公司+职位」申请入群~

进群后,你将直接获得:

 👉 最新最专业的AI产品信息及分析 🔍 

 👉 不定期发放的热门产品内测码 🔥

 👉 内部专属内容与专业讨论 👂

🌟 点亮星标 🌟

科技前沿进展每日见

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值