16.(2022)Chip-BCKG-基于临床指南的中国乳腺癌知识图谱的构建与应用
论文标题: Construction and Application of Chinese Breast Cancer Knowledge Graph Based on Clinical Guidelines
论文会议: Chip 2022
摘要
知识图谱是医学智能的重要资源。普通医学知识图谱试图囊括所有疾病,包含大量医学知识。然而,人工评测所有的三元组是困难的,因此知识的准确性通常不能支持智能医疗应用。
乳腺癌是目前发病率最高的癌症之一。通过人工智能技术提高乳腺癌诊疗效率,改善乳腺癌患者术后健康状况迫在眉睫。针对这一需求,本文提出了一个基于临床指南构建乳腺癌KG的框架。
具体地说,从临床指南的文本和表格中提取三元组知识,并通过知识融合将不同指南的知识融合在一起,构建乳腺癌KG(BCKG)。实验结果表明,BCKG可以支持乳腺癌知识问答、乳腺癌术后随访和医疗保健,提高乳腺癌诊断、治疗和管理的质量和效率。
1.引言
2020年,世界卫生组织发布了癌症数据统计数据。新发乳腺癌人数首次超过肺癌,成为世界上最常见的癌症,占所有新发癌症患者的11.7%。乳腺癌也是中国发病率最高的癌症之一,特别是在北京、上海、广州、深圳等一线城市,乳腺癌发病率超过40‰,并以每年约5%的速度增长。从以上数据可以看出,乳腺癌已成为对人们生命健康的本质威胁。与肺癌不同,乳腺癌是一种可治愈的疾病,存活率较高。美国乳腺癌患者的五年生存率超过90%,而中国的乳腺癌患者五年生存率只有70%-80%。因此,中国在医疗、保险、健康管理等各个领域对乳腺癌的治疗都下了很大功夫。例如,中国国家卫生健康委员会2022年发布的《乳腺癌诊疗指南》旨在提高乳腺癌诊疗的标准化。保险公司开发了一些针对乳腺癌患者的保险产品,可以更好地解决乳腺癌治疗的费用问题。
乳腺癌的诊断和治疗依赖于专业的乳腺癌医学知识。例如,在营销乳腺癌保险产品时,保险代理人经常被要求回答患者提出的专业问题,如:Her2阳性、肿瘤大小为10mm×8mm×3mm的乳腺癌第一阶段是否可以投保?这份保险的保费是多少?等问题,代理人需要具备乳腺癌知识和保险知识。然而,医疗专业人才短缺是中国的普遍现象,如何通过智能化手段提高乳腺癌诊疗和健康管理质量,是亟待解决的问题。
专业疾病KG可以提高特定疾病知识的准确性和覆盖率,因此可以更好地支持临床决策、药物研发、基于知识的问答、智能营销等。英文版有比较完整的乳腺癌KG,包括乳腺癌知识和病历数据,对乳腺癌的诊断、健康管理和临床治疗具有重要价值。目前,缺乏中文乳腺癌相关的研究和KG,这限制了中国的人工智能技术在乳腺癌疾病领域的应用。
针对上述问题,本文提出了一种基于临床指南的乳腺癌KG构建方法,该方法能够从高质量的乳腺癌临床指南知识中提取知识,通过融合不同指南的知识来构建乳腺癌KG。具体地说,我们利用联合学习方法从临床指南的文本信息中提取实体和关系以形成三元组知识,并从临床指南的表中提取知识。最后,通过知识融合算法,将不同指南的知识进行融合,构建乳腺癌KG。实验结果表明,本文提出的方法可以从指南中提取高质量的三元组知识,形成乳腺癌KG。通过问答和智能随访的应用,实验结果表明,乳腺癌KG可以支持乳腺癌诊断、治疗和健康管理的智能化。本文的主要贡献有三个:
- 据我们所知,本文首先提出从临床指南构建中文乳腺癌KG,试图提高乳腺癌诊疗的效率和质量;
- 根据临床指南文本和表格数据的特点,采用两种不同的模型从临床指南中提取知识;
- 乳腺癌知识问答和术后随访的应用表明,乳腺癌KG可以支持乳腺癌的诊断、治疗服务等应用。
2.相关工作
本文主要研究乳腺癌指南中知识的提取,并通过知识融合构建KG。主要的相关工作包括知识提取和医学KG。这一部分将分别介绍主要的相关工作。
2.1 知识提取
知识是机器语义理解的重要基础,对实现高级人工智能具有重要意义,一直是NLP领域的研究热点。
在知识抽取中有三种类型的任务,包括命名实体识别、关系抽取和事件抽取。知识抽取方法基本上经历了三个阶段:(1)基于规则的知识抽取;(2)基于统计学习的知识抽取;(3)基于深度学习的知识抽取。近年来,随着深度学习和大规模预训练语言模型(PLM)的发展和广泛应用,PLM被广泛应用于命名实体识别和关系抽取等任务中。传统的方法将命名实体识别和关系提取建模为一个“流水线”任务,即首先识别文本中的命名实体,然后根据识别的实体对提取关系。
这种方法存在错误传播问题,不能利用关系信息来优化命名实体识别性能等。为了解决上述问题,研究人员提出了一种基于联合学习的命名实体识别和关系提取方法。该方法将名称、实体识别和关系抽取建模在同一任务和模型中。该模型利用命名实体信息进行关系识别,并利用关系信息对命名实体识别结果进行约束,以获得更好的知识抽取结果。近年来,事件抽取受到了研究人员和企业的广泛关注。传统的事件抽取方法试图通过不同的策略来抽取一个完整的事件结构,这些方法可以分为四类:(1)流水线分类法,(2)联合学习方法,(3)语义结构根基方法和(4)问答方法。
2.2 医学KG
KG以结构化的形式描述世界上的概念

该论文提出了一种从临床指南构建中国乳腺癌知识图谱的方法,旨在提高乳腺癌诊疗效率。通过联合学习和文本匹配技术,分别从指南文本和表格中提取知识,然后通过知识融合构建乳腺癌知识图谱(BCKG)。BCKG支持乳腺癌知识问答、术后随访,有助于提升乳腺癌管理的质量和效率。
最低0.47元/天 解锁文章
2501

被折叠的 条评论
为什么被折叠?



