生物医学文本复杂三元组提取的新方法
1. 引言
在医疗资源有限,精准医疗和智能医疗兴起的背景下,医学知识图谱的应用备受关注。构建医学知识图谱的关键在于从海量非结构化生物医学数据中提取实体、关系和属性,而人工提取信息成本高昂,因此自动提取有效信息至关重要。三元组提取是信息提取的重要环节,其形式为“实体 1 - 关系 - 实体 2”,用于表示两个实体间的关系。
现有的生物医学文本三元组提取方法多致力于实体对关系分类,但大多忽略实体提取,且未完全解决复杂关系中实体重叠问题。在生物医学文本里,实体关系复杂,常出现单个实体参与多个三元组(单实体重叠)或实体对存在多种关系(实体对重叠)的情况。例如,“Pprom with bleeding and transverse lie prompted cesarean section.” 中,“Pprom” 参与了两个三元组;“Multiple gallbladder - like dense shadows can be seen in the gallbladder cavity.” 中,“Gallbladder cavity” 和 “Dense shadow” 存在两种关系。
多数现有方法难以处理复杂生物医学句子,每个词对应一个标签,或一个实体对对应一种关系,当实体对存在多种关系时,仅保留概率最高的关系。近期的 CopyRE 方法虽能先预测关系,但仅针对通用领域,且通过 BiLSTM 获取句子表示,在生物医学文本中表现不佳。
为解决此问题,我们提出新方法,利用 RCNN 改进 CopyRE 编码器并应用于生物医学领域。RNN 能捕捉上下文信息,但有偏差;CNN 是无偏模型,能获取重要特征,但需提前设置卷积核。RCNN 灵活
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



