文章总结与翻译
一、文章主要内容
本文聚焦大型语言模型(LLMs)在医疗领域尤其是药物禁忌信息查询中的局限性,提出并构建了一个基于检索增强生成(RAG)的药物禁忌问答系统,以提升药物禁忌信息回答的准确性和可靠性。
1. 研究背景
LLMs虽在多个领域表现出色,但在医疗等需专业知识的领域存在不足,药物禁忌这类对准确性要求极高的场景中,仅依赖预训练LLMs易出现错误,可能引发严重后果。现有医疗问答数据集(如PubMedQA、MedQA)多关注通用医疗知识,对特殊人群(孕妇、儿童、同时服用多种药物者)的药物禁忌覆盖不足,且相关问答系统准确性较低。
2. 研究方法
- 数据集构建:从韩国公共药物利用审查(DUR)数据库提取数据,构建包含3000个问答对的数据集,涵盖儿童年龄相关禁忌、孕期禁忌、药物相互作用禁忌三类,每个类别各1000个,问答以韩语呈现,问题模拟患者或护理人员的真实查询,答案基于DUR指南明确药物是否禁忌及原因。
- RAG系统设计:以OpenAI的GPT-4o-mini为基础生成模型,text-embedding-3-small为嵌入模型,借助Langchain构建混合检索系统(融合基于语义相似性的密集嵌入检索和基于关键词的稀疏检索),并进行重排序。知识 base 采用结构化CSV文件构建,将DUR数据库中每个禁忌条目分割为语义连贯单元,转换为向量后存储在Milvus向量数据库,检索时先分别通过两种检索方式获取Top-k相关文档,去
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



