14、健康状况演变信息知识图谱构建与评估

健康状况演变信息知识图谱构建与评估

1. 数据收集与预处理

为了构建健康状况演变信息的知识库,需要从公开可用的数据源收集相关信息。选择了NHS England和MAYO Clinic两个健康网站,NHS England是英国最大的健康网站,提供症状、病症和治疗相关内容;MAYO Clinic是非营利组织,其网站提供全面且易于访问的病症描述。从这两个网站收集包含病症描述的HTML文件,然后对文本进行清理,去除HTML标签、换行符、特殊字符和空格。

病症演变通常在一句话中描述,例如“Broken ankle”的演变描述为“A broken ankle usually takes 6 to 8 weeks to heal, but it can take longer”。将语料按句子组织,数据集共包含208,838个句子,按健康状况分组。

由于电子健康记录(EHR)通常使用SNOMED CT作为描述临床病症的标准,因此需要将网络数据源中的病症名称与SNOMED CT进行对齐。使用Levenshtein距离进行对齐,找到匹配的病症名称,并对随机选择的病症结果进行手动审核。最终语料是按健康状况分组的句子集合,每个健康状况都与对应的SNOMED CT标识符相关联。

2. 知识组件提取

知识组件提取的重点是从语料中提取健康演变声明(HES)候选推荐。具体步骤如下:
- 构建HES的黄金标准数据集
- 检查语料,健康状况描述内容丰富,平均有180个句子,但只有少数描述健康状况演变。使用距离监督方法识别这些句子。
- 选择一组指病症恢复的文本片段样本,如“last between”“

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值