摘要
药物发现是生物医学自然语言处理(NLP)中的一项关键任务,然而可解释的药物发现仍有待深入探索。与此同时,大语言模型(LLMs)在自然语言理解和生成方面展现出了卓越的能力。利用大语言模型进行可解释的药物发现,有望改进下游任务和实际应用。在本研究中,我们利用开源药物知识图谱、临床试验数据和PubMed出版物,构建了一个用于可解释药物发现任务的综合数据集,名为expRxRec。此外,我们引入了KEDRec-LM,这是一个经过指令调优的大语言模型,它从丰富的医学知识语料库中蒸馏知识,用于药物推荐和给出推荐理由。为了鼓励该领域的进一步研究,我们将公开数据集和KEDRec-LM。
引言
药物发现的复杂性在于理解药物与疾病之间错综复杂的关系,这使得识别潜在的治疗用途成为一项具有挑战性且资源密集型的工作。近年来,大规模生物医学知识图谱的出现,如药物再利用知识图谱(DRKG),通过连接大量生物医学实体和关系,推动了该领域的显著进展。这些结构化数据库涵盖了药物相互作用、疾病关联和生物途径等丰富信息。然而,要充分利用这些信息进行药物发现,尤其是药物再利用,需要有效的方法来提取有意义的见解,以指导治疗推理。
随着生物医学文献的迅速增长,特别是在像PubMed这样的数据库中,挖掘这些知识以揭示药物 - 疾病关系迎来了前所未有的机遇。然而,由于文献数量庞大且每项研究的特异性,手动整理、理解和从中得出结论并不可行。传统知识图谱对这些联系提供了静态表示,但在推理复杂治疗机制或药物疗效与疾病病理之间的微妙相互作用时,其效用有限。这一差距凸显了对自动化方法的需求,这些方法能够结合上下文并综合现有文献,以支持和加强药物设计与发现的过程。
利用生物医学文献

订阅专栏 解锁全文
789

被折叠的 条评论
为什么被折叠?



