
01背景
近些年,智能医疗在国内外的发展速度以及企业数量都在不断增长。一方面,关键技术的突破带来了以数据密集、知识密集、脑力劳动密集为特征的医疗产业与人工智能的深度融合;另一方面,人们对于提升医疗技术、延长寿命、保障健康的需求也更加急迫,刺激了医疗产业变革升级浪潮的兴起。
随着人工智能赋能医疗热度不断攀升,天鹏科技清楚地认识到,场景才是盘活存量数据、吸附和创造增量数据,最终产生更加强大智能的核心。数据驱动的人工智能正在朝着场景驱动的人工智能发展。如果要用数字化给一个行业赋能,那么机器首先要理解这个行业,而理解这个行业的最直接的表现就是能够玩转这个行业的知识图谱。可以说,知识图谱是场景的骨架和灵魂,是把更多行业知识、领域知识转化为数字化生产力的知识基础设施。
02什么是知识图谱
知识图谱的前身是1998 年万维网之父 Tim Berners-Lee 提出的语义网,它吸收了语义网、本体在知识组织和表达方面的理念,让知识在计算机之间和计算机与人之间达到交换、流通和加工。
知识图谱作为大数据知识工程的典型代表,以自动化知识获取为其根本特征。它相当于人工智能的“大脑”,也是储备成千上百万医学概念、医学关系、医学证据的知识库。对于人工智能来说,它可以将原本没有联系的海量数据联通,把离散的数据整合,从而为用户提供更有价值的决策支持。
天鹏科技构建了基于大数据与知识库结合的疾病知识图谱与药物知识图谱,涵盖临床常见及罕见疾病、症状、药品、指南、临床路径等内容,将其应用于医学知识检索、辅助诊疗、用药推荐、医疗及药物问答系统等场景中。

03医疗知识图谱如何构建
知识图谱 (Knowledge Graph)是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,
每条边为实体与实体之间的“关系”,实体和关系又有其自身的“属性”。实体、关系、属性构成知识图谱的核心三要素。
1. 医学知识抽取:知识抽取即实体与关系的抽取,通过字典表结合深度学习实现:
1.1 深度学习抽取实体:利用医学信息命名实体识别任务中主流的深度学习模型—BiLSTM-CRF 模型,通过学习标注样本各类实体和关系,模型自动抽取出如药物通用名、商品名、适应症、禁忌症、不良反应、用法用量、药物过量等实体及关系。

1.2 建立医学字典表:针对模型抽取出的实体进行核查并建立医学字典表,不断迭代增量,建立庞大语料库,用于文本预标注和知识积累。

示例:从几十份电子病历中抽取实体建立字典表
2.实体对齐
实体抽取以后,需要进行对齐处理才能纳入知识图谱中。实体对齐(Entity Alignment)也被称作实体匹配(Entity Matching),是指对于异构数据源知识库中的各个实体,找出属于真实世界中的同一对象。实体对齐能够解决由于知识来源的多样性导致的知识重复、知识质量良莠不齐、知识间关联不够明确等问题。例如不良反应的症状有头晕,也可称之为头昏;药物沙丁胺醇气雾剂的商品名有万托林、信谊、Ventolin等;阿奇霉素的商品名有泰力特、希舒美、舒美特等,经过实体对齐后可形成规范的标准化术语,用于构建知识图谱。
04知识图谱赋能临床场景
随着医疗信息系统及人工智能的蓬勃发展,积累的海量医学数据正在不断开发应用,医学目前是知识图谱应用最广的垂直领域之一,知识图谱涉及到的知识抽取、表示、融合、推理、问答等关键问题得到一定程度的解决和突破,成为知识服务领域的一个新热点。
天鹏科技所构建的知识图谱融合了最新指南文献及海量病历数据等信息,结合深度学习算法,将其应用于诊断预测、查询问答、相似患者推荐、个性化用药推荐、AI质控等应用场景中。例如诊断预测产品能够基于文本进行直接预测,系统自动进行结构化推理运算,预测top3准确率能够达90%。依托专业的医学及AI技术团队,知识图谱保持着定期更新、不断丰富的能力,为临床决策场景提供更可靠的支持。

05参考文献
1. 袁凯琦,邓扬,陈道源,等.医学知识图谱构建技术与研究进展[J].计算机应用研究,2018,35(07):1929-1936.
2. 杨锦锋,于秋滨,关毅,等.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(08):1537-1562.
3. 叶枫,陈莺莺,周根贵,等.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(02):256-262.