关系序列比对与标识
1. 引言
序列数据无处不在,在机器学习的众多应用领域,如计算生物学、用户建模、语音识别、自然语言处理等都有涉及。序列比对是其中一个重要任务,它能帮助我们找出序列间的相似区域。在生物信息学中,可用于识别相似的DNA序列、构建系统发育树和开发蛋白质结构的同源模型;在自然语言处理中,可用于自动文本摘要、释义和翻译。
传统的比对方法大多假设序列由扁平符号组成,但现实世界中的许多序列,如自然语言句子和蛋白质二级结构,都具有丰富的内部结构。例如,句子 “A purple latex balloon blew himself up in a southern city Wednesday, bursting two other balloons and deforming 27” ,使用Brill基于规则的词性标注器处理后,会得到一个结构化对象的序列:
dt(a), jj(purple), nn(latex), nn(balloon), vbd(blew), prp(himself), in(up),
in(in), dt(a), jj(southern), nn(city), nnp(wednesday), comma, vbg(bursting),
cd(two), jj(other), nns(balloons), cc(and), vbg(deforming), cd(27)
将传统比对算法应用于这样的序列时,要么忽略原子的结构,导致信息丢失;要么考虑所有可能的参数组合,导致参数数量呈组合爆炸式增长。因此,关系序列比对是一个重要问题。
目前,很少有研究关注复杂对象序列的比对。一些相关工作,如K
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



