本文是LLM系列文章,针对《RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic Retrieval Augmented Generation》的翻译。
摘要
大型语言模型 (LLM) 推动了医学人工智能 (AI) 领域的发展。但是,LLM 通常会根据静态训练数据集生成过时或不准确的信息。检索增强生成 (RAG) 通过集成外部数据源来缓解这种情况。以前的 RAG 系统使用预先组装的固定数据库,灵活性有限,而我们已经开发了放射学 RAG (RadioRAG) 作为端到端框架,可以从权威放射学在线资源实时检索数据。RadioRAG 使用专用的放射学问答数据集 (RadioQA) 进行评估。我们在回答放射学特定问题时评估各种 LLM 的诊断准确性,无论是否通过 RAG 访问额外的在线信息。使用来自放射学亚专业的 RSNA 病例集中的 80 个问题和 24 个额外的专家策划的问题,其中有正确的黄金标准答案,LLM(GPT-3.5-turbo、GPT-4、Mistral-7B、Mixtral-8x7B 和 Llama3 [8B 和 70B])在有和没有 RadioRAG 的情况下提示。RadioRAG 从 www.radiopaedia.org 实时检索特定于上下文的信息,并将其合并到其回复中。RadioRAG 始终提高所有 LLM 的诊断准确性,相对改进从 2% 到 54% 不等。它在放射学亚专业中达到或超过没有 RAG 的问答,尤其是在乳腺成像和急诊放射学方面。然而,不同模型的改善程度不同;GPT-3.5-turbo 和 Mixtral-8x7Binstruct-v0.1 取得了显着进步,而 Mistral-7B-instruct-v0.2 没有表现出任何改善,凸显了其有效性的可变性。LLM 在提供对训练数据之外的领域特定数据的访问权限时受益。对于放射学,RadioRAG 建立了一个强大的框架,可显着提高放射学问答的诊断准确性和真实性。

订阅专栏 解锁全文
383

被折叠的 条评论
为什么被折叠?



