健康状况演变信息知识图谱构建与评估
在健康信息领域,对健康状况演变信息的有效管理和利用至关重要。本文将详细介绍健康状况演变信息知识图谱的构建过程,包括数据收集、知识组件提取、知识补全、引入专家知识等步骤,以及对整个方法的评估。
数据收集
为了构建健康状况演变信息的知识库,我们需要合适的数据源。选择的数据源应满足两个条件:一是公开可用,二是内容丰富且包含健康状况演变的描述。我们确定了两个健康网站:英国国家医疗服务体系(NHS England)和梅奥诊所(MAYO Clinic)。NHS England 是英国最大的健康网站,提供症状、病症和治疗等方面的直接访问内容;MAYO Clinic 是非营利组织,其网站提供全面且易于访问的病症描述。NHS England 网站展示了 972 种健康状况的信息,MAYO Clinic 展示了 1170 种。
从这两个网站收集包含病症描述的 HTML 文件后,我们对文本进行清理,去除 HTML 标签、换行符、特殊字符和空格。经过审查发现,健康状况演变通常在一句话中描述。例如,“脚踝骨折”的演变描述为“脚踝骨折通常需要 6 到 8 周才能愈合,但可能需要更长时间”。因此,我们将语料库按句子组织,数据集总共包含 208,838 个句子,按健康状况分组。
由于电子健康记录(EHR)通常使用 SNOMED CT 作为描述临床病症的标准,我们需要将网络来源的病症名称与 SNOMED CT 对齐。使用 Levenshtein 距离进行对齐,并手动审查随机选择病症的结果。最终的语料库是按健康状况分组的句子集合,每个健康状况都与相应的 SNOMED CT 标识符关联。
知识组件提取
这一步的重点是从
超级会员免费看
订阅专栏 解锁全文
31

被折叠的 条评论
为什么被折叠?



