LeetCode Repeated DNA Sequences

本文介绍了一种基于哈希表的DNA序列重复性检测算法,通过编码将DNA字符转换为整数,利用滑动窗口在序列中查找重复子序列,并使用哈希表和集合记录重复次数超过一次的子序列。

思路:

编码:
A ~ 00
C ~ 01
G ~ 10
T ~ 11

所以10个字符只需要20位就可以表示,共有 220 种情况,所以hash table的大小就是 10241024

不断的向前移动2位来构造val,在hash table中查找看是否出现的次数大于1,是的话加入set,最后整理结果。

class Solution {
private:
    int getCode(char ch) {
        if(ch == 'A') return 0;
        if(ch == 'C') return 1;
        if(ch == 'G') return 2;
        if(ch == 'T') return 3;
    }
public:
    vector<string> findRepeatedDnaSequences(string s) {
        vector<string> res;
        set<string> ss;
        if(s.length() < 10) return res;
        int htable[1024 * 1024] = {0};
        unsigned  int val = 0;
        for(int i = 0; i < 9; ++i) {
            val <<= 2;
            val |= getCode(s[i]);
        }
        for(int i = 9; i < s.length(); ++i) {
            val <<= 14;
            val >>= 12;
            val |= getCode(s[i]);
            htable[val]++;
            if(htable[val] > 1) {
                ss.insert(s.substr(i - 9, 10));
            }
        }
        for(set<string>::iterator i = ss.begin(); i != ss.end(); ++i) {
            res.push_back(*i);
        }
        return res;
    }
};
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值