西班牙文真实世界健康记录的命名实体识别去标识化
1. 引言
在处理西班牙文医疗文本的去标识化问题时,需要有效的方法来保护患者和医疗专业人员的隐私。本文将介绍两种主要的方法:基于LSTM的模型和基于Transformer的模型,并对它们的性能进行实验和比较。
2. 基于LSTM的模型
2.1 BiLSTM模型
BiLSTM是一种循环神经网络(RNN)模型,用于处理序列数据。它可以在时间步上进行推理,并为每个输入序列推断标签。其结构如图1所示。此外,两个BiLSTM层可以连接起来,以产生更具上下文感知能力的算法。在这种情况下,第二个BiLSTM层的前向隐藏单元层接收前一个状态的输出和第一个BiLSTM层的前向隐藏单元层的输出。相反,后向隐藏单元层是基于第一个BiLSTM的后向隐藏单元层和未来的隐藏状态计算的。
2.2 BiLSTM - CRF模型
BiLSTM - CRF是一种用于提高命名实体识别(NER)性能的RNN模型。它将双向LSTM和条件随机场(CRF)堆叠在一起进行序列学习。CRF是一种无向判别概率图模型,由一组随机变量组成,用于根据特定的输入序列表示结构化输出的概率。经过BiLSTM层和无激活函数的时间分布层处理的结果被输入到CRF模型中,该模型会为系统为每个单词分配实体。
3. 基于Transformer的模型
3.1 Transformer模型概述
Transformer模型使用自注意力机制为每个输入单词创建上下文数值表示,并通过其网络架构的并行化提高计算效率。在过去三年中,Transformer已成为自然语言处理(NLP)多个领
超级会员免费看
订阅专栏 解锁全文
2577

被折叠的 条评论
为什么被折叠?



