Description
基因匹配(match) 卡卡昨天晚上做梦梦见他和可可来到了另外一个星球,这个星球上生物的DNA序列由无数种碱基排列而成(地球上只有4种),而更奇怪的是,组成DNA序列的每一种碱基在该序列中正好出现5次!这样如果一个DNA序列有N种不同的碱基构成,那么它的长度一定是5N。 卡卡醒来后向可可叙述了这个奇怪的梦,而可可这些日子正在研究生物信息学中的基因匹配问题,于是他决定为这个奇怪星球上的生物写一个简单的DNA匹配程序。 为了描述基因匹配的原理,我们需要先定义子序列的概念:若从一个DNA序列(字符串)s中任意抽取一些碱基(字符),将它们仍按在s中的顺序排列成一个新串u,则称u是s的一个子序列。对于两个DNA序列s1和s2,如果存在一个序列u同时成为s1和s2的子序列,则称u是s1和s2的公共子序列。 卡卡已知两个DNA序列s1和s2,求s1和s2的最大匹配就是指s1和s2最长公共子序列的长度。 [任务] 编写一个程序: 从输入文件中读入两个等长的DNA序列; 计算它们的最大匹配; 向输出文件打印你得到的结果。
60%的测试数据中:1<=N <= 1 000
100%的测试数据中:1<=N <= 20 000
Solution
n^2的dp显然不能过,考虑枚举第二行,设f[i]表示当前时刻第一行匹配到i的lcs。注意到普通lcs只有两数字相等时才会贡献1,因此枚举五个相等的数用树状数组加速即可
Code
#include <stdio.h>
#include <algorithm>
#define rep(i,st,ed) for (int i=st;i<=ed;++i)
#define drp(i,st,ed) for (int i=st;i>=ed;--i)
#define lowbit(x) ((x)&(-(x)))
const int N=100005;
int pos[N/5][6],c[N],n;
int query(int x) {
int ret=0;
for (;x;x-=lowbit(x)) ret=std:: max(ret,c[x]);
return ret;
}
void modify(int x,int v) {
for (;x<=n;x+=lowbit(x)) c[x]=std:: max(c[x],v);
}
int main(void) {
scanf("%d",&n); n*=5;
rep(i,1,n) {
int x; scanf("%d",&x);
pos[x][++pos[x][0]]=i;
}
rep(i,1,n) {
int x; scanf("%d",&x);
drp(j,5,1) modify(pos[x][j],query(pos[x][j]-1)+1);
}
printf("%d\n", query(n));
return 0;
}

本文介绍了一种高效的基因匹配算法,用于寻找两个DNA序列之间的最长公共子序列。通过使用树状数组来加速查找过程,解决了传统动态规划方法在大规模数据集上的性能瓶颈。
565

被折叠的 条评论
为什么被折叠?



