39、生物信息学中的本体构建与应用

生物信息学中的本体构建与应用

1. 实体嵌入与查询分类

在处理实体时,若实体 c 与其祖先不同,可通过将 eHc 乘以分类法的祖先矩阵 A 来推导 eH,公式为 (H = A eH)。祖先矩阵 (A_{i,j}) 的每个元素仅在实体 j 是 i 的祖先(包括 (i = j))时非零,其计算方式为 (A_i = OneHot(i) + \frac{1}{\vert parents(i) \vert} \sum_{j \in Parents(i)} A_j)。

实体的最终嵌入是其父实体的最终嵌入(在多继承情况下为父实体的平均值)加上其自身的原始嵌入,即 (H_c = H_{P_c} + eH_c)。这意味着父实体提供嵌入空间中的全局位置,而子实体学习相对于该空间的局部位置。

查询分类通过推导点积加上偏置项,再经过 softmax 层来完成,公式为 (p(c|e) \propto \exp(H_{ce} + b_c))。若将 A 设置为单位矩阵 I,则可忽略分类法信息,此时模型的行为类似于具有权重矩阵 eH 的普通 softmax 分类器。

若要使用神经字典管理器在句子或更大的文本中进行实体识别,需从文本中提取一到七个单词的所有 n - 元组。神经字典管理器用于将每个 n - 元组与一个实体匹配。当不相关的 n - 元组的匹配分数(神经字典模型提供的 softmax 概率)低于阈值时,将其从候选列表中移除。

2. 短语聚合器

短语聚合器接收短语列表,合并同义相关的短语,形成有意义的本体条目。它通过短语实例的泛化输出短语实体的层次结构。

短语过滤规则如下:
1. 仅提取名词、动词和介词短语。 <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值