- 问题
- 如何提升生物医学和临床领域语义模型的性能:在临床和生物医学自然语言处理(NLP)中,如何有效融合生物医学知识图谱(BKGs)和大语言模型(LLMs)的优势,以提高语义模型在该领域的能力,特别是在语义文本相似性(STS)、生物医学概念表示(BCR)和临床命名实体链接(NEL)等任务上的表现。
- 如何改善模型对多语言的支持:现有的多语言生物医学模型性能较低,如何利用有效的技术提升多语言模型在生物医学领域的性能,使其能够在多种语言环境下准确处理生物医学相关任务,如实现不同语言中生物医学概念的准确表示和文本的相似性判断等。
- 挑战
- 数据方面
- 知识图谱信息有限性:许多生物医学知识图谱中的实体包含信息较少,对于一些生物体和物种等实体,难以提供足够丰富的信息来训练模型,导致模型难以区分这些实体,例如不同种类的细菌在知识图谱中的描述可能不够详细,无法让模型准确学习其特征。
- 知识更新滞后性:知识图谱的更新速度往往滞后于生物医学文献,可能无法及时包含新发表的生物医学研究中的知识,限制了模型获取最新信息的能力,影响模型对新疾病、新治疗方法等概念的理解和处理。
- 模型训练方面
- 语义空间扭曲问题:在使用对比学习策略训练模型时,如 BioLORD - 2022 模型中,广泛的概念名称和定义的对比学习会导致语义空间扭曲,过度强调了某些方面而牺牲了其他语言理解方面,从而造成模型在通用语义相似性任务中的性能下降,且模型在获取生物医学知识的同时,出现了对一般语言理解能力的退化。
- 多语言训练数据稀缺性:对于多语言生物医学模型,高质量的非英语训练数据在生物医学领域较为稀缺,导致模型在多语言环境下的泛化能力不足,难以准确处理不同语言中的生物医学任务。
- 数据方面
- 创新点
- 训练数据增强:利用 LLMs(如 GPT - 3.5)结合生物医学知识图谱(如 SNOMED - CT)生成大量生物医学概念的定义(400,000 个概念),并将其补充到训练数据中,有效增加了训练数据的丰富度,例如为一些之前定义不明确或缺乏人类编写定义的概念提供了更多信息。
- 训练策略改进
- 改进对比学习阶段:采用 LORD 策略进行对比学习,同时使用改进的初始化策略(适应 STAMB2 模型到 STS 任务的多任务设置),在对比学习前后均进行调整,使模型生成的医学概念表示更符合人类判断,如在处理 “ranitidine” 等概念时能更好地学习其语义表示。
- 引入自蒸馏阶段:提出一种监督自蒸馏方法,将对比学习阶段获取的知识以更直接的方式融入基础模型,通过生成概念嵌入并进行微调,使模型能够更好地保留现有知识,同时加速生物医学知识的获取,减少语义空间扭曲,提高模型性能。
- 权重平均阶段:利用 “模型汤”(model soups)技术,对多个微调模型的参数权重进行平均,提高了系统的准确性和稳健性,且不增加推理或内存成本,特别适用于对推理速度要求较高的密集概念和句子表示模型(如用于生物医学检索增强生成(RAG)管道中的模型)。
- 多语言模型构建:采用跨语言蒸馏技术,将英语模型的表示蒸馏到支持 50 多种语言的 “paraphrase - multilingual - mpnet - base - v2” 语言模型中,构建了多语言临床语言模型(BioLORD - 2023 - M),并通过使用从 SNOMED - CT 生成的对齐语料库(包含英语、西班牙语、法语、德语、荷兰语、丹麦语和瑞典语的对齐),提高了多语言模型在生物医学概念名称规范化等任务中的性能。
- 贡献
- 方法贡献
- 提出了一种新的生物医学语义模型训练方法,包括数据增强、改进的训练策略和多语言模型构建技术,为生物医学领域的语义模型训练提供了新的思路和技术框架。
- 详细阐述了如何在训练过程中有效融合知识图谱和 LLMs 的优势,通过实验证明了该方法在多个下游任务(如 STS、BCR、NEL 等)上的有效性,为后续研究提供了可借鉴的实践经验。
- 资源贡献
- 发布了 BioLORD - 2023 模型及其多语言版本 BioLORD - 2023 - M,以及训练数据集(BioLORD、AGCT),为生物医学研究社区提供了可直接使用和进一步研究的资源,有助于推动该领域的研究进展。
- 提供了对模型在多个任务上的详细评估结果和分析,包括不同基准数据集上的性能表现以及消融研究结果,为其他研究人员评估和比较不同模型提供了参考依据。
- 方法贡献
- 提出的方法
- 训练数据准备
- 利用 LLM(GPT - 3.5)结合 SNOMED - CT 本体生成 400,000 个生物医学概念的定义,形成 AGCT(Automatic Glossary of Clinical Terminology),并将其与已有的 UMLS 定义结合,补充到训练数据中。同时使用更新的 UMLS 本体(v2023AA)版本生成文本描述。
- 训练策略
- 对比学习阶段(Contrastive phase):采用 LORD 对比学习目标,将批量的概念名称及其定义输入语言模型,使概念名称的表示与定义的表示距离最小化,同时与其他概念的定义距离最大化。例如,对于 “ranitidine” 及其定义,模型学习使它们的表示相近,而与其他概念(如 “aspirin”)的定义表示远离。在这个阶段,还使用了改进的初始化策略,先将 STAMB2 模型适应到 STS 任务的多任务设置,然后进行对比学习,之后再次适应,以提高模型性能。
- 自蒸馏阶段(Self - distillation phase):为解决对比学习导致的语义空间扭曲和性能下降问题,提出自蒸馏方法。首先使用 BioLORD - 2023 - C 模型生成 400 万个生物医学概念的嵌入,然后微调一个基础模型(未经过对比学习),通过学习投影和均方误差损失来准确预测这些蒸馏后的概念嵌入。在这个过程中,将概念名称和定义的表示平均后作为回归目标,并且通过主成分分析(PCA)将嵌入维度降低到 64 维,以提高训练速度。
- 权重平均阶段(Weight - averaging phase):由于自蒸馏阶段依赖于随机初始化的投影头,不同随机种子会产生不同模型。采用 “模型汤” 技术,对多个微调模型的参数权重进行平均,以提高模型的准确性和稳健性,且不增加推理成本。
- 跨语言蒸馏(Cross - lingual distillation):利用 Reimers 等人提出的技术,将英语模型的表示蒸馏到支持多语言的 “paraphrase - multilingual - mpnet - base - v2” 模型中,构建多语言模型 BioLORD - 2023 - M。使用从 SNOMED - CT 生成的对齐语料库(包含多种欧洲语言)进行蒸馏,并且在当前版本中虽然未深入研究,但提出可以通过补充 UMLS(特别是 MESH 子集)的多语言注释来增加语言覆盖范围,留待后续工作探索。
- 训练数据准备
- 指标
- 语义文本相似性(STS):通过计算模型生成的相似性分数与专家人类判断分数之间的 Pearson 相关系数来评估。在多个 STS 基准数据集(如 MedSTS、MedNLI - S、BIOSSES、SICK、STS - Benchmark 等)上进行评估,相关系数越高表示模型在该任务上的性能越好。例如,在 MedSTS 数据集上,BioLORD - 2023 的 Pearson 相关系数达到了 88.3,相比之前的模型有显著提升。
- 生物医学概念表示(BCR):使用 Spearman 相关系数来评估模型将生物医学概念映射到向量潜在空间后的特征表示能力,用于衡量模型在分类概念或推导概念属性等任务上的有效性。在 EHR - RelB、UMNSRS - Similarity、UMNSRS - Relatedness、MayoSRS 等基准数据集上进行评估,相关系数越高说明模型对概念的表示能力越强。如 BioLORD - 2023 在 EHR - RelB 基准上表现出色,Spearman 相关系数达到了 63.6。
- 生物医学命名实体链接(NEL):以 Top1 Accuracy(最高准确率)为指标,评估模型将自由文本描述的临床概念映射到固定的生物医学概念列表(如生物医学本体中的元素)的能力。在多个不同形式的数据集(如 TwiMed - Twitter、SMM4H、PsyTar、CADEC、TwiMed - PubMed 等)上进行评估,准确率越高表示模型在该任务上的性能越好。例如,BioLORD - 2023 在 PsyTar 数据集上的 Top1 Accuracy 达到了 66.3。
- 模型结构
- 基于 Transformer 的基础架构:模型基于 Transformer 架构构建,这是一种广泛应用于自然语言处理任务的深度学习架构,能够有效处理序列数据,捕捉文本中的语义和语法信息。
- 多阶段训练过程
- 首先进行对比学习阶段,利用 LORD 策略和改进的初始化策略,调整模型参数,使模型学习生物医学概念名称和定义之间的关系,初步获取生物医学知识。
- 接着进入自蒸馏阶段,通过生成概念嵌入并微调基础模型,将对比学习阶段获取的知识以监督学习的方式融入基础模型,优化模型的知识表示,减少语义空间扭曲。
- 最后在权重平均阶段,对多个经过训练的模型参数进行平均,得到最终的 BioLORD - 2023 模型,提高模型的准确性和稳健性。对于多语言模型 BioLORD - 2023 - M,还额外经过跨语言蒸馏过程,将英语模型的表示蒸馏到多语言模型中,使其能够处理多种语言的生物医学任务。
- 结论
- 模型性能优势:BioLORD - 2023 在临床 STS 和概念表示任务上表现出色,在多个下游任务(如 STS、BCR、NEL 等)上相比之前的模型(如 BioSyn、SapBERT、BioLORD - 2022 等)有显著的性能提升,成为生物医学领域新的先进语义模型。例如,在 MedSTS 任务上,准确率从 86.3 提升到 88.3;在 EHR - RelB 基准上,Spearman 相关系数从 57.5 提升到 63.6 等。
- 实际应用价值:该模型能够帮助研究人员更好地处理复杂的生物医学文献,加速生物医学研究和药物发现进程;同时能更深入理解患者记录,为更准确的诊断、个性化治疗方案提供支持,从而改善患者的治疗结果。
- 剩余挑战和未来工作
- 剩余挑战
- 模型知识受限:当前模型的知识受限于用于提示语言模型的知识图谱,对于一些信息较少的实体(如生物体和物种)区分能力不足,且知识图谱更新滞后于文献,无法及时包含最新知识。
- 多语言模型改进空间:虽然多语言模型 BioLORD - 2023 - M 在多语言 NEL 任务上取得了一定成果,但仍有提升空间,例如在处理某些语言的特定语义类型(如英语中的一些生物医学术语)时,单语模型可能表现更好,多语言模型需要进一步优化以适应更广泛的生物医学任务和语言场景。
- 未来工作
- 计划改进模型依赖的知识源,将知识图谱信息与最新的生物医学文献相结合,在生成定义前提示 LLMs,以包含更多最新和相关信息,为稀有或特定概念创建更精确的定义,并研究基于 BioLORD - 2023 模型的文档检索对生成定义的影响。
- 考虑利用未来更大规模的开源 STS 模型,将 BioLORD 的自蒸馏阶段应用于这些模型,以进一步提升模型性能,更好地服务于生物医学领域的各种任务,如进一步提高语义文本相似性判断的准确性、生物医学概念表示的精确性以及命名实体链接的准确率等。
- 剩余挑战
- 数据集
- 训练数据集
- BioLORD 数据集:在之前工作的基础上进行扩展,用于模型的训练,包含丰富的生物医学概念相关信息。
- AGCT(Automatic Glossary of Clinical Terminology)数据集:通过使用 GPT - 3.5 语言模型结合 SNOMED - CT 本体生成的大规模生物医学临床概念字典,包含 400,000 个概念的定义,为模型提供了大量补充的训练数据,增强了模型对生物医学概念的理解能力。
- 评估数据集
- 用于临床语义文本相似性(STS)评估的数据集:包括 MedSTS、MedNLI - S、BIOSSES、SICK、STS - Benchmark 等,涵盖生物医学和一般领域,用于评估模型在判断句子对语义相似性方面的能力,通过计算模型生成的相似性分数与专家人类判断分数之间的 Pearson 相关系数来衡量模型性能。
- 用于生物医学概念表示(BCR)评估的数据集:如 EHR - RelB、UMNSRS - Similarity、UMNSRS - Relatedness、MayoSRS 等,用于评估模型将生物医学概念映射到向量潜在空间后的特征表示能力,通过 Spearman 相关系数评估模型在分类概念或推导概念属性等任务上的有效性。
- 用于生物医学命名实体链接(NEL)评估的数据集:有 TwiMed - Twitter、SMM4H、PsyTar、CADEC、TwiMed - PubMed 等,这些数据集在形式化程度上有所不同,用于评估模型将自由文本描述的临床概念映射到固定生物医学概念列表的能力,以 Top1 Accuracy 为评估指标。此外,还有用于评估多语言模型的 XL - BEL 数据集,特别是其临床子集(经过筛选,排除了不相关的提及类型,如植物和动物物种名称),用于评估多语言模型(如 BioLORD - 2023 - M)在不同语言(如德语、西班牙语、英语)下的概念名称规范化能力。
- 训练数据集
结果
最先进的生物医学模型在 STS(Pearson 相关性)、BCR(Spearman 相关性)和 NEL(Top1 准确度)方面的性能特征。评估的模型如下:BioSyn(2020 年最先进的模型)、SapBERT(2021 年最先进的模型)、BioLORD-2022(我们的基线模型)和 BioLORD-2023(我们的新模型)。粗体和颜色代码表示给定任务的最佳结果和第二好结果。
最先进的多语言生物医学模型在 STS(皮尔逊相关性)、BCR(斯皮尔曼相关性)、NEL(Top1 准确度)和多语言 NEL(Top1 准确度)方面的性能特征。