生信算法4 - 获取overlap序列索引和序列的算法

本文介绍了一种在生物信息学中用于计算两个DNA序列重叠部分的算法,通过Python3.9在Jupyter中实现,重点是getOverlapIndexAndSequence函数,演示了如何找到两个序列的最长公共后缀及其起始位置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

生信序列基本操作算法

建议在Jupyter实践,python版本3.9

1. 获取overlap序列索引和序列的算法实现

# min_length 最小overlap碱基数量3个
def getOverlapIndexAndSequence(a, b, min_length=3):
    """ Return length of longest suffix of 'a' matching
        a prefix of 'b' that is at least 'min_length'
        characters long.  If no such overlap exists,
        return 0. """
    # 开始位置
    start = 0  
    while True:
        # 在序列a中查找b的最小长度后缀
        start = a.find(b[:min_length], start)  
        
        # 如果没有匹配到则返回0
        if start == -1:  
            return 0
        
        # 如果存在overlap序列,则输出a序列开始索引以及overlap序列
        # 即序列b的开始 min_length 个碱基与a序列的 min_length 个碱基的后缀序列相同
        if b.startswith(a[start:]):
            return len(a)-start, a[start:]
        
        # 右移1个碱基
        start += 1  

2. 算法测试

getOverlapIndexAndSequence('TTACGT', 'CGTGTGC')
# (3, 'CGT') overlap序列开始索引和对应序列碱基

getOverlapIndexAndSequence('TTACGT', 'GTGTGC')
# 0
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

每一份鼓励是我坚持下去动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值