ChatGPT误导患者不要就医，只因提问多打了一个空格

转载于 2025-07-10 08:34:50 发布 · 59 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247809012&idx=2&sn=c62933df5e4c337baec8e9ade4d87596&chksm=e913fd861000f1b7ce49921e1e15da6d07d93b89409e67fd2e960db874e77525e499bcd0e6ec&scene=126&sessionid=0

文章标签：

#chatgpt #人工智能

部署运行你感兴趣的模型镜像

奕然发自凹非寺
量子位 | 公众号 QbitAI

只是因为提问时多打了一个空格，患者就被ChatGPT误导不要就医？

MIT一项新研究表明，如果患者跟AI沟通的时候，消息中包含拼写错误或者大白话，它更有可能建议你不要看医生。

更有甚者，研究还发现AI错误告诉女性不要看医生的比率高于男性。

为什么AI会存在理解偏见

有些看似微不足道的细节，或许是影响医疗AI机器人理解的关键。

比如单词之间多了一个空格，或者患者使用了俚语或俏皮话。

除此之外，人们模糊地不确定地表达医学概念的时候，AI理解存在偏差或者错误的可能性更高，尤其对于不能使用母语的人来说。

但是，面对专业的医学术语，咱们普通老百姓也只能模糊表达啊。

文字沟通上的问题固然无奈，但AI建议背后的偏见更是个问题。

女性跟男性被AI错误告知的比例压根没法比，女性被告诉不要看医生的比例高于男性。

△按性别划分临床准确率差距（男性-女性）

上图展示了按性别划分的临床准确率差距结果，蓝色条形表示扰动（或基线）情况下，误差线显著性水平为𝑝<0.007，男性患者的临床准确率高于女性患者。

为何会出现这样的比例，作者怀疑这是否与现实生活中的医生往往淡化女性的医疗投诉有关。

进一步研究：“非临床信息”的沟通

为了弄清楚以上问题，MIT的研究人员评估了四个模型，包括OpenAI的GPT-4、Meta的开源LLama-3-70b，以及一个名为Palmyra-Med的医疗AI。

为了测试它们，研究人员使用真实患者投诉（来自医疗数据库）、Reddit上的健康帖子以及一些AI生成的患者案例，模拟了数千个患者案例。

在把案例“喂”给AI模型之前，研究人员添加了一些“干扰项”，比如使用感叹号、全部小写输入、多种语言风格（如夸张语气）、不确定语言（如“可能”）以及使用性别中性的代词。

△患者沟通方式案例图

这些“干扰项”并未影响患者回答中的临床数据。

结果来说，当面对以上“干扰”的时候，它们更有可能在7%到9%的范围内建议患者自行管理症状，而不是去看医生。

△模型导致的临床准确性差异

上图显示了与基线水平准确性的差异，误差线构建于p<0.007，即模型导致的临床准确性下降。

还有一种解释，医疗大语言模型（LLMs）依赖于医学文献的训练，即接收的都是专业的标准化的“临床信息”，面对日常生活中患者沟通表达的非标准化的、多元的“非临床信息”，大模型没经验，无法提炼。

无论怎么说，很显然，AI模型被非标准的书写方式改变了认知。

AI医疗偏见会带来什么问题

医疗AI聊天机器人应用在医院、诊所等场景已经非常常见了，比如智慧导诊、安排预约、回答简单医学问题等，还会根据患者告诉的信息进行分诊。

但是，人们开始怀疑把生命交给经常误解信息并编AI造事实然后下判断的AI模型是否可靠。

更重要的是，“隐形”的AI偏见在未来可能带来更严重的问题。

未参与该研究的加州大学圣地亚哥分校健康学院（UC San Diego Health）的Karandeep Singh表示，“隐性的偏见会改变AI建议的语气和内容，而这可能导致医疗资源分配上出现微妙但重要的差异”。

这项研究的合著者、麻省理工学院EECS副教授Marzyeh Ghassemi表示，这就是医疗大模型行业应用之前必须经过审核的原因。

但是，解决这些问题并不容易。

随着AI在各行各业的深度应用，大型语言模型（LLMs）也越来越多地被应用于临床环境，并开发多种健康应用，比如慢性病管理、诊断辅助以及文档记录、账单处理和患者沟通等行政任务；甚至使用LLMs辅助临床决策。

这项研究想要评估，LLMs在临床应用中推理能力的关键作用。

结果也显示，LLMs在医疗应用中显示出巨大潜力。

但研究人员希望他们的工作能激发AI在临床应用中的深度研究，比如对理解临床LLMs推理，考虑非临床信息在决策中的有意义的影响，以及推动在部署患者-人工智能系统之前进行更严格的审核的研究。

参考链接
[1]https://futurism.com/ai-something-bizarre-typos
[2]https://dl.acm.org/doi/pdf/10.1145/3715275.3732121

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属AI产品从业者的实名社群，只聊AI产品最落地的真问题 扫码添加小助手，发送「姓名+公司+职位」申请入群～

进群后，你将直接获得：

👉 最新最专业的AI产品信息及分析 🔍

👉 不定期发放的热门产品内测码 🔥

👉 内部专属内容与专业讨论 👂

🌟 点亮星标 🌟

科技前沿进展每日见

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。