生物信息学中的本体构建与应用
1. 实体嵌入与查询分类
在处理实体时,若实体 c 与其祖先不同,可通过将 eHc 乘以分类法的祖先矩阵 A 来推导 eH,公式为 (H = A eH)。祖先矩阵 (A_{i,j}) 的每个元素仅在实体 j 是 i 的祖先(包括 (i = j))时非零,其计算方式为 (A_i = OneHot(i) + \frac{1}{\vert parents(i) \vert} \sum_{j \in Parents(i)} A_j)。
实体的最终嵌入是其父实体的最终嵌入(在多继承情况下为父实体的平均值)加上其自身的原始嵌入,即 (H_c = H_{P_c} + eH_c)。这意味着父实体提供嵌入空间中的全局位置,而子实体学习相对于该空间的局部位置。
查询分类通过推导点积加上偏置项,再经过 softmax 层来完成,公式为 (p(c|e) \propto \exp(H_{ce} + b_c))。若将 A 设置为单位矩阵 I,则可忽略分类法信息,此时模型的行为类似于具有权重矩阵 eH 的普通 softmax 分类器。
若要使用神经字典管理器在句子或更大的文本中进行实体识别,需从文本中提取一到七个单词的所有 n - 元组。神经字典管理器用于将每个 n - 元组与一个实体匹配。当不相关的 n - 元组的匹配分数(神经字典模型提供的 softmax 概率)低于阈值时,将其从候选列表中移除。
2. 短语聚合器
短语聚合器接收短语列表,合并同义相关的短语,形成有意义的本体条目。它通过短语实例的泛化输出短语实体的层次结构。
短语过滤规则如下:
1. 仅提取名词、动词和介词短语。 <
超级会员免费看
订阅专栏 解锁全文
148

被折叠的 条评论
为什么被折叠?



