在医学领域,药物安全性是一个重要的问题,需要不断地进行监测和评估。然而,目前的药物警戒系统主要依赖于自愿报告或临床试验,这些方法存在一些局限性,如低报告率、选择性偏差、时间延迟等。因此,有必要开发新的方法来利用临床实践中产生的大量数据,如电子病历中的门诊笔记,来自动化地检测和分析药物相关的不良事件(AE)。
近年来,自然语言处理(NLP)技术在处理自然语言文本方面取得了显著的进步,其中大型语言模型(LLM)如GPT、BERT等在许多任务上都表现出优异的性能。LLM是一种基于深度神经网络的模型,可以从大量的未标注文本中学习语言的统计规律和语义知识,然后通过微调(fine-tuning)来适应特定的下游任务。LLM已经被成功地应用于医学领域的一些NLP任务,如医学实体识别、关系抽取、问答系统等,但在药物不良事件检测方面还没有得到充分的评估。
Algorithmic identification of treatment-emergent adverse events from clinical notes using large language models: a pilot study in inflammatory bowel disease
论文地址:https://www.medrxiv.org/content/10.1101/2023.09.06.23295149v1
为了探索LLM在药物不良事件检测方面的潜力,在这篇论文中一组来自加州大学旧金山分校(UCSF)和斯坦福大学(Stanford)的研究人员进行了一项试点研究,他们使用了一种新开发的临床LLM,UCSF BERT,来识别在使用非类固醇免疫抑制剂治疗炎症性肠病(IBD)后发生的严重不良事件(SAE)。IBD是一种慢性炎症性肠道疾病,包括溃疡性结肠炎和克罗恩病,在全球范围内影响了约300万人。非类固醇免疫抑制剂是IBD治疗中常用的药物类别之一,包括硫唑嘌呤、美司托嘌呤、环孢素等。这些药物可以抑制免疫系统对肠道组织的攻击,从而减轻IBD患者的症状和并发症。然而,这些药物也可能导致一些严重的不良事件,如感染、肝损伤、胰腺炎等。
该试点研究使用了UCSF电子健康记录系统中收集的928份门诊IBD笔记作为数据源。这些笔记对应了928名IBD患者,在使用非类固醇免疫抑制剂治疗后发生了所有与SAE相关的住院事件。这些笔记中共包含703个SAE,在这些SAE中最常见的是预期效果失败(即药物无效或导致病情恶化)。研究人员对这些笔记进行了人工注释,标记出其中的药物名称、不良事件名称、住院事件和因果关系。然后,他们将这些注释的数据分为训练集、验证集和测试集,用于训练和评估不同的模型。
研究人员选择了8个候选模型进行比较,其中包括以下几类:
-
基于规则的模型:这种模型使用预定义的规则和词典来识别药物和不良事件,并根据一些启发式来判断因果关系。这种模型的优点是简单易实现,缺点是需要大量的人工编写规则,且难以适应不同的领域和语境。
-
基于机器学习的模型:这种模型使用传统的机器学习算法,如支持向量机(SVM)或随机森林(RF),来从文本中提取特征,并基于这些特征来预测药物和不良事件以及因果关系。这种模型的优点是可以自动地从数据中学习特征,缺点是需要大量的标注数据,且特征提取过程可能损失一些语义信息。
-
基于神经网络的模型:这种模型使用深度神经网络,如卷积神经网络(CNN)或循环神经网络(RNN),来对文本进行编码,并基于编码后的向量来预测药物和不良事件以及因果关系。这种模型的优点是可以捕捉文本中的复杂和非线性的语义信息,缺点是需要大量的计算资源,且容易过拟合。
-
基于LLM的模型:这种模型使用预训练好的LLM,如BERT或UCSF BERT,来对文本进行编码,并在此基础上进行微调来适应下游任务。这种模型的优点是可以利用LLM从大规模文本中学习到的丰富的语言知识,缺点是需要合适的预训练数据和微调策略。
研究人员使用了几个指标来评估各个模型在测试集上的性能,包括准确率、召回率、F1分数等。他们发现,在识别药物-SAE对方面,UCSF BERT取得了最高的数值性能(准确率88-92%,宏观F1 61-68%),比先前发表的基于规则、机器学习或神经网络的模型高出5-10%的准确率。此外,UCSF BERT在识别用药后出现的住院事件方面也明显优于其他模型(p < 0.01)。这些结果表明,UCSF BERT可以有效地从临床笔记中检测出与非类固醇免疫抑制剂相关的SAE,并且具有较强的泛化能力。
该试点研究是第一个使用LLM来识别临床笔记中治疗后出现的SAE的研究,为使用NLP技术来增强药物警戒提供了一种新的方法。该研究也展示了UCSF BERT在医学领域NLP任务上的优势,UCSF BERT是一种专门针对临床文本进行预训练和微调的LLM,它可以更好地理解临床术语、缩写、语法结构和语义关系等。然而,该研究也存在一些局限性和挑战,如数据规模较小、标注质量不一、模型可解释性不足等。因此,未来的工作需要使用更多的多中心数据来扩大研究范围,并探索更先进的模型架构和技术,如GPT或对抗学习,来提高模型的性能和评估。
总之,该试点研究为使用大型语言模型来识别临床笔记中治疗后出现的不良事件提供了一种新的思路和方法,为药物警戒领域带来了新的机遇和挑战。我们期待着这一领域的进一步发展和创新。
大语言模型(LLM)|ChatGPT相关文章(以下点击可阅读):
1个小时利用ChatGPT完成神经外科领域的完全虚构的论文!AI写论文的逼真程度令人震惊
以色列一对师生借助ChatGPT,1小时完成1篇论文糖尿病论文
利用ChatGPT,这位医生4个月内完成16篇论文,且已发表5篇!医生科研开启加速模式!
AI论文 | ChatGPT在医学中的应用概述:应用、优势、局限性、未来前景和伦理思辨
AI论文 | 从临床和科研场景分析ChatGPT在医疗健康领域的应用可行性
AI论文 | ChatGPT可以撰写研究文章吗?以人群层面疫苗有效性分析为例
ChatGPT在PubMed上的发表数量超过1000篇:展望未来之路
GPT辅助论文降重教程,100%降至13%(实用指令,赶紧收藏)
国自然基金委:在各科学部设立科普类项目!面青地等将科普成果列入项目成果;资助强度较大项目,应围绕项目开展科普工作
2023年国自然医学科学学部人工智能及大模型相关课题项目汇总
科研之心,致力于探索AI大模型与科研结合。科研之心为您提供最新的AI资讯、最实用的AI工具、最深入的AI分析,帮助您在科学研究中发掘AI的无限潜力。
欢迎关注,保持交流!