DNA sequence（DFS）

最新推荐文章于 2021-08-06 22:06:03 发布

幽影相随

最新推荐文章于 2021-08-06 22:06:03 发布

阅读量1.7k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： # 搜索

本文链接：https://blog.youkuaiyun.com/weixin_43820352/article/details/100750564

搜索专栏收录该内容

15 篇文章

订阅专栏

探讨在生物信息学中，如何寻找最短的DNA序列，使给定的多个DNA序列成为其子序列。这是一个关于计算分子生物学的问题，涉及到字符串匹配和算法优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DNA sequence

题目

二十一世纪是生物技术发展的世纪。我们知道基因是由DNA组成的。构建DNA的核苷酸碱基是A（腺嘌呤），C（胞嘧啶），G（鸟嘌呤）和T（胸腺嘧啶）。找到DNA /蛋白质序列之间最长的共同子序列是现代计算分子生物学中的基本问题之一。但这个问题有点不同。给定几个DNA序列，要求您从它们中制作一个最短的序列，以便每个给定的序列是它的子序列。
例如，给定“ACGT”，“ATGC”，“CGTT”和“CAGT”，您可以按以下方式制作序列。它是最短的但可能不是唯一的。

输入

第一行是测试用例编号t。然后是t测试案例。在每种情况下，第一行是整数n（1 <= n <= 8）表示DNA序列的数目。以下k行包含k个序列，每行一个。假设任何序列的长度在1到5之间。

输出

对于每个测试用例，打印一行，其中包含可以从这些序列中生成的最短序列的长度。

样本输入

1
4
ACGT
ATGC
CGTT
CAGT

样本输出

题意

找到一个字符串，输入的所有字符串均为它的序列。

#include <iostream>
#include <cstdio>
#include <cstring>
#include <string>
#include <algorithm>
#include <cmath>
using namespace std;
int n;
int ans;
//记录 n 个字符串 
char str[10][10];
//深度 
int deep;
int Max(int x,int y){
	if(x>y)return x;
	else return y;
}
char DNA[4]={'A','T','C','G'};
void dfs(int index,int len[])
{
	//大于限制的深度，不用往下搜索 
	if(index>deep) return;
	//预计还要匹配的字符串的最大长度
	int maxn=0;
	for(int i=0;i<n;i++)
	{
		maxn=Max(strlen(str[i])-len[i],maxn);
	}
	//条件全部满足即为最优解
	//当前的深度 + 最少还有加深的深度是否大于限制的长度，若是，则退回
	if(maxn==0)
	{
		ans=index;
		return;
	}
	//剪枝 
	if(index+maxn>deep) return;
	for(int i=0;i<4;i++)
	{
		int flag=0;
		int pos[10];
		for(int j=0;j<n;j++)
		{
			if(str[j][len[j]]==DNA[i]){
				flag=1;
				pos[j]=len[j]+1;
			}else{
				pos[j]=len[j];
			}
		}
		if(flag) dfs(index+1,pos);
		if(ans!=-1) return;
	}
}
int main()
{
	int t,i;
	scanf("%d",&t);
	while(t--)
	{
		scanf("%d",&n);
		deep=0;
		for(int i=0;i<n;i++){
			scanf("%s",str[i]);
			deep=Max(deep,strlen(str[i]));
		}
		ans=-1;
		int pos[10]={0};
		while(true)
		{
			dfs(0,pos);
			if(ans!=-1) break;
			deep++;
		}
		printf("%d\n",ans);
	}
	return 0;
}