MIRAGE:一个基于医学搜索增强生成(RAG)的框架

MIRAGE是一个用于评估医学问答RAG系统的基准,通过MedRAG工具包,它显著提升了大语言模型在医学任务中的准确性,特别是在减少幻觉和过时信息方面。研究者发现,选择合适的语料库和搜索器对RAG性能至关重要,且MedRAG展示了零样本学习的潜力。
部署运行你感兴趣的模型镜像

MIRAGE:一个基于搜索增强生成(RAG)的框架,旨在提高医学问答(QA)任务中的性能。

图片

虽然大型语言模型 (LLM) 在广泛的医学问答 (QA) 任务中取得了最先进的性能,但它们仍然面临着幻觉和过时知识的挑战。检索增强生成(RAG)是一种很有前途的解决方案,并已被广泛采用。然而,RAG 系统可能涉及多个灵活的组件,并且缺乏有关各种医疗目的的最佳 RAG 设置的最佳实践。

为了系统地评估此类系统,我们提出了医学信息检索增强生成评估(MIRAGE),这是一个首创的基准,包括来自五个医学 QA 数据集的 7,663 个问题。使用MIRAGE,我们通过本工作中引入的 MedRag工具包对不同语料库、检索器和骨干 LLM 的 41 种组合进行了超过 1.8 万亿个提示标记的大规模实验。

图片

图片

MIRAGE的核心思想是利用最新可信的文档信息来辅助大语言模型(LLM),以减少生成错误信息(幻觉现象)并提升答案的准确性和可靠性。在使用MedRAG后,某些模型的性能提升至与GPT-4相当的水平。

MIRAGE主要功能包括:

1、增强医学问答准确性:通过检索增强生成(RAG)技术,MEDRAG训练利用最新可靠的医学文档信息来辅助大型语言模型(LLM),提高医学问答任务中的准确性和可靠性。这种方法减少了因模型数据限制而

2、系统性评估医学RAG系统性能:MIRAGE基准为医学问答领域的检索增强生成(RAG)系统提供了一个系统性评估平台。通过包含来自五个医学QA数据集的7,663问题,它允许研究人员和开发人员全面测试和比较不同RAG系统的性能。这种评估有助于识别哪些方法在处理医学信息时最有效,特别是在准确性和可靠性方面。

3、提供医学专用工具包:MEDRAG工具包集成了多个领域特定的语言资料库、搜索器和法学硕士,支持研究人员在医学问答任务上进行全面的实验和评估。这些组件包括专门为医学领域设计的文档库、针对医学信息优化的搜索算法以及适用于医学问答的LLM。

4、零样本学习能力:MEDRAG特别关注RAG系统的零样本(零样本)学习能力,即在没有给出具体例子的情况下,系统能够解答新的、未见过的医学问题。这对于医学领域尤为重要,因为新的医疗知识和数据持续支持。通过提高系统的零样本学习能力,可以确保医学问答系统即使在缺乏特定数据的情况下情况下也能提供准确的答案。显着提高了系统在实际应用中的灵活性和有效性。

实验结果:

LLMs比较:在CoT设置中,其他后备LLMs的最佳平均得分行走约61%(GPT) -3.5和Mixtral),而通过MedRAG,它们的性能可以显着提高到约70%,与GPT-4(CoT)相当。这些结果展示了RAG在增强LLM回答医学问题的零样本能力方面的巨大潜力,这可能是一种比进行更大规模预训练更有效的选择。

图片

根据MIRAGE基准的实验结果,使用MedRAG工具包进行的测试显示:

1、性能提升:在使用MedRAG后,六种不同的大型语言模型(LLMs)在医学问答任务上的准确率提高了高达18%,将某些模型的性能提升至与GPT-4相当的水平。

2、最佳组件组合:实验结果表明,不同的医学语料库和检索器这强调了在构建医学RAG系统时,选择合适的语料库和搜索器以优化性能关键。

3、发现新的效果:研究还发现了医学RAG中的对数线性缩放属性和“中间损失”效应,为理解和优化RAG系统提供了新的感知。

论文:https:// arxiv.org/abs/2402.13178

大语言模型(LLM)|ChatGPT相关文章(以下点击可阅读):

年末福利:科研GPT限时免费使用,支持GPT3.5、GPT4-32K、SparK模型等

基于GPT-4的Coscientist成功完成复杂化学实验,布洛芬配方轻松拿捏,复现诺贝尔化学奖

AI超大模型!一个午休就能读完20万篇论文、提取信息完成生物数据库更新!

ChatGPT一周年:AI如何改变医疗健康领域的未来?

两篇Nature:AI实现新材料的快速合成!17天独自创造41种新材料

顶刊 | 解放军总医院:基于生成对抗网络的主动脉和颈动脉非造影 CT 血管造影

Nature:AI 如何重塑科研范式

GPT-4V在医疗领域全面测评(178页,128个案例)

目前最好的医疗大语言模型居然是……

医疗AI与GPT | 梳理全球医疗大模型

1个小时利用ChatGPT完成神经外科领域的完全虚构的论文!AI写论文的逼真程度令人震惊

精选32篇AI大模型&GPT+医学的论文(免费领取)

以色列一对师生借助ChatGPT,1小时完成1篇论文糖尿病论文

利用ChatGPT,这位医生4个月内完成16篇论文,且已发表5篇!医生科研开启加速模式!

Nature新规:用ChatGPT写论文可以,列为作者不行

AI论文 | ChatGPT在医学中的应用概述:应用、优势、局限性、未来前景和伦理思辨

AI论文 | 从临床和科研场景分析ChatGPT在医疗健康领域的应用可行性

Nature:大语言模型构建的AI医生,比人类医生更出色

GPT辅助论文降重教程,100%降至13%(实用指令,赶紧收藏)

2023年国自然医学科学学部人工智能及大模型相关课题项目汇总

科研之心,致力于探索AI大模型与科研结合。科研之心为您提供最新的AI资讯、最实用的AI工具、最深入的AI分析,帮助您在科学研究中发掘AI的无限潜力。

欢迎关注,保持交流!

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

### RAG技术概述 RAG(Retrieval-Augmented Generation)是一种结合检索和生成的技术,旨在通过外部知识库增强大模型的能力[^1]。具体而言,RAG技术允许模型在生成过程中动态检索相关信息并加以利用,从而弥补传统大模型仅依赖内部参数化知识的不足[^2]。 #### 核心原理 RAG的核心在于将检索模块与生成模块结合起来。检索模块负责从外部数据库中提取相关的信息片段,而生成模块则基于这些信息以及自身的上下文理解能力完成最终的任务输出[^3]。这种设计使得RAG能够实现实时性和灵活性的高度统一,在处理特定领域或私有数据时尤为有效。 #### 使用方法 要使用RAG技术,通常需要以下几个组成部分: 1. **构建知识库**:创建一个结构化的或者非结构化的文档集合作为检索目标。 2. **集成检索器**:选择合适的检索算法(如BM25、向量相似度搜索等),用于快速定位最相关的条目。 3. **训练生成模型**:采用预训练的语言模型,并微调使其适配于带有额外输入字段的形式——即不仅考虑原始提问还应加入由检索返回的内容。 4. **部署服务端逻辑**:搭建完整的流水线架构,确保从前端接收请求到最后响应整个流程顺畅高效运行。 下面给出一段简单的伪代码展示如何实现基本版的RAG系统: ```python def rag_pipeline(question, knowledge_base): retrieved_docs = retrieve_relevant_documents(question, knowledge_base) # 检索阶段 answer = generate_answer_with_context(question, retrieved_docs) # 生产阶段 return answer # 假设函数定义如下 def retrieve_relevant_documents(query, kb): ... def generate_answer_with_context(q, docs): ... ``` 此脚本展示了两步走策略:先找到关联资料再据此作答。 ### 应用场景举例 - **客服机器人**: 利用公司内部FAQ文件夹做为背景支持材料,帮助AI更精准回复客户疑问。 - **医疗咨询助手**: 结合最新医学论文成果更新诊断建议给患者提供科学依据支撑下的健康指导方案。 - **教育辅导平台**: 配套教材章节内容同步解析难题促进学生自主学习兴趣培养。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

明哲AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值