本文是LLM系列文章,针对《Answering real-world clinical questions using large language model based systems》的翻译。
摘要
由于缺乏相关和值得信赖的文献,以及难以将针对特定患者的现有研究置于背景中,指导医疗保健决策的证据往往受到限制。大型语言模型 (LLM) 可以通过总结已发表的文献或根据真实世界数据 (RWD) 生成新研究来潜在地解决这两个挑战。我们评估了 5 个基于 LLM 的系统回答 50 个临床问题的能力,并让 9 名独立医生审查了回答的相关性、可靠性和可操作性。就目前而言,通用 LLM(ChatGPT-4、Claude 3 Opus、Gemini Pro 1.5)很少产生被认为相关且基于证据的答案 (2% - 10%)。相比之下,基于检索增强一代 (RAG) 和代理 LLM 系统为 24% (OpenEvidence) 到 58% (ChatRWD) 的问题生成了相关且基于证据的答案。与其他 LLM 相比,只有代理 ChatRWD 能够回答新问题(65% 对 0-9%)。这些结果表明,虽然通用 LLM 不应按原样使用,但基于 RAG 的专门构建的证据总结系统以及协同作用生成新证据的系统将提高患者护理相关证据的可用性。
1 引言
2 方法
3 结果
4 讨论
5 结论
对于许多患者护理决策,仍然难以获得相关证据。获取证据的挑战来自两个来源:1) 由于没有具体的研究,近 80% 的护理决策缺乏高质量的证据2 和 2) 难以针对手头患者的特定复杂性将现有研究置于上下文中。虽然 LLM 擅长总结和背景化现有文献,无论是在训练期间

订阅专栏 解锁全文
667

被折叠的 条评论
为什么被折叠?



