用于药物、疾病和临床实体识别的统一神经架构
1. 引言
生物医学和临床文本中的命名实体识别(NER)是多个生物医学和临床信息提取任务的重要步骤。当前的先进方法将NER任务表述为序列标注问题,即给每个单词标注一个标签,并根据标签序列识别感兴趣的实体。与通用领域相比,生物医学和临床领域的实体识别更为困难,原因包括使用非标准缩写或首字母缩写词、同一实体存在多种变体等。此外,临床笔记通常包含较短、不完整且语法错误的句子,这使得模型难以提取丰富的上下文信息。
最常用的模型,如条件随机场(CRF)、最大熵马尔可夫模型(MEMM)或支持向量机,使用手动设计的规则来获取单词或其周围文本的形态、句法、语义和上下文信息,然后将这些信息作为特征来识别正确的标签。然而,这些模型的性能受到特定任务和领域的显式设计特征选择的限制。例如,为蛋白质或基因等生物实体设计的特征,对于疾病名称识别可能并不重要。
基于深度学习的模型旨在减少手动设计显式特征的工作量。这些模型使用分布式特征代替手动设计的特征,并使用多层神经网络代替线性模型,以克服特定任务的精细特征工程需求。尽管这些方法在多个通用领域的序列标注任务中表现出色,但在生物医学领域仍未能超越现有技术水平。这可能有两个原因:一是仅从词级嵌入中学习特征;二是只考虑单词的固定长度上下文。词级嵌入虽然能保留单词的句法和语义属性,但可能无法保留在NER中也起着重要作用的形态信息。例如,药物名称Cefaclor、Cefdinir、Cefixime、Cefprozil和Cephalexin有共同的前缀,Doxycycline、Minocycline和Tetracycline有共同的后缀,这些共同的前缀或后缀通常足以预测实体类型。此外,基于窗口的神经架构只能将用户决定的窗口大小
超级会员免费看
订阅专栏 解锁全文
1052

被折叠的 条评论
为什么被折叠?



