AsdKB:孤独症谱系障碍中文知识库的构建与应用
1. 事实知识提取
在构建孤独症谱系障碍(ASD)的知识库时,事实知识提取是关键的一步,主要涵盖以下几个方面:
- 疾病知识
- 疾病实例 :从SNOMED CT中获取疾病实例,如“Atypical Rett syndrome”,这些实例是SNOMED CT疾病分类中的叶节点。针对每个疾病实例,从SNOMED CT中提取标签、SCTID、ICD - 10代码和同义词等属性值。同时,手动设计模板从ICD - 10关于精神和行为障碍的临床描述中提取疾病介绍、患者群体和病因等属性值,并通过Google Translate和手动校对获取相应的中文版本。总共收集了49个与ASD相关的疾病实例及其属性信息。
- 症状实例 :同样从ICD - 10临床描述中提取症状实例,将其建模为序列标注任务。具体步骤如下:
- 将每个段落作为一个文档,使用TF - IDF识别关键词。
- 标注语料库中的少量症状实例来训练提取模型,利用BioBERT将每个单词编码为嵌入向量。
- 运用BiLSTM捕获每个单词的文本上下文特征。
- 应用条件随机场完成序列标注,将症状实例分类到预定义的症状类别中,如“社交互动障碍”、“限制性、重复性和刻板行为”和“其他症状”。
- 不断将高质量的序列标注结果添加到标注数据中训练新模型,直到达到最大迭代次数。最后,使用Google Translate获取每个症状实例的中文描述,共收集了65个症状实例。
- 诊断知识
-
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



