多序列比对 c语言代码,如何在R中执行基本的多序列比对?

(我已经尝试过在

biostar上问过这个问题了,但是由于文本挖掘中的某个人认为有更好的解决方案的可能性很小,我也在这里重新发布)

我试图实现的任务是对齐几个序列.

我没有匹配的基本模式.我所知道的只是“真实”模式的长度应为“30”,并且我在随机点引入了缺失值的序列.

这是一个这样的序列的例子,在左边我们看到了缺失值的真实位置,在右边我们看到了我们能够观察到的序列.

我的目标是仅使用我在右栏中获得的序列重建左列(基于每个位置中的许多字母相同的事实)

Real_sequence The_sequence_we_see

1 CGCAATACTAAC-AGCTGACTTACGCACCG CGCAATACTAACAGCTGACTTACGCACCG

2 CGCAATACTAGC-AGGTGACTTCC-CT-CG CGCAATACTAGCAGGTGACTTCCCTCG

3 CGCAATGATCAC--GGTGGCTCCCGGTGCG CGCAATGATCACGGTGGCTCCCGGTGCG

4 CGCAATACTAACCA-CTAACT--CGCTGCG CGCAATACTAACCACTAACTCGCTGCG

5 CGCACGGGTAAGAACGTGA-TTACGCTCAG CGCACGGGTAAGAACGTGATTACGCTCAG

6 CGCTATACTAACAA-GTG-CTTAGGC-CTG CGCTATACTAACAAGTGCTTAGGCCTG

7 CCCA-C-CTAA-ACGGTGACTTACGCTCCG CCCACCTAAACGGTGACTTACGCTCCG

以下是重现上述示例的示例代码:

ATCG

set.seed(40)

original.seq

seqS

change.letters

{

number.of.changes

new.letters

where.to.change.the.letters

x[where.to.change.the.letters]

return(x)

}

change.letters(original.seq)

insert.missing.values

insert.missing.values(original.seq)

seqS2

seqS3

seqS4

require(stringr)

# library(help=stringr)

all.seqS

# how do we allign this?

data.frame(Real_sequence = seqS4,The_sequence_we_see = all.seqS)

我明白,如果我所拥有的只是一个字符串和一个模式,我就可以使用

library(Biostrings)

pairwiseAlignment(...)

但在我提出的情况下,我们正在处理许多序列以相互对齐(而不是将它们与一个模式对齐).

在R中有没有已知的方法?

谢谢,

塔尔

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值