生物分子事件提取与双通道正交镜像滤波器组的多目标设计
生物分子事件提取
特征定义
在生物分子事件提取中,定义了多种特征来辅助识别和分类事件:
1. 布尔值特征 :利用依赖路径信息定义了两个布尔值特征。第一个特征检查当前标记的子节点是否为命题,且该子节点的组块包含蛋白质;第二个特征仅当当前标记的子节点是蛋白质且其依赖标签为 OBJ 时触发。
2. 最短路径 :以当前标记到最近蛋白质的距离作为特征,这是一个整数值特征,其值等于当前标记与最近蛋白质之间的标记数量。
3. 单词前缀和后缀 :固定长度(设为 n)的单词后缀和前缀有助于从文本中检测事件触发词。若对应单词长度小于等于 n - 1,或标记本身为标点符号、包含特殊符号或数字,则特征值未定义,用 ND 表示。在本研究中,考虑长度至多为四个字符的前缀和后缀。
4. 上下文中的命名实体 :计算句子各种上下文中命名实体(NEs)的频率。假设当前标记为 w,句子长度(以单词数量计)为 L,定义不同的上下文大小为 context - size = L / K(K 取值 1 到 5),以 w 为中心定义上下文窗口为 context - window - size = 2 * context - size + 1。当窗口大小超过句子长度时,添加空槽并用“Other - than - NEs”(用 O 表示)填充。对于单词 w,定义一个长度为 5 的特征向量,根据 K 的值触发相应特征,特征值等于上下文窗口内 NEs 的数量。
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



