[LG]p1140 相似基因_atg区域相似怎么p-优快云博客

本文链接：https://blog.youkuaiyun.com/A_puku/article/details/82777621

本文介绍了一种计算两个基因序列相似度的方法，并提供了一个具体的编程实现案例。通过定义碱基间的相似度，采用动态规划算法求解两个基因序列的最大相似度。

题目链接
题目描述
两个基因的相似度的计算方法如下：

对于两个已知基因，例如AGTGATGAGTGATG和GTTAGGTTAG，将它们的碱基互相对应。当然，中间可以加入一些空碱基-，例如：

这样,两个基因之间的相似度就可以用碱基之间相似度的总和来描述，碱基之间的相似度如下表所示：
在这里插入图片描述

那么相似度就是：(-3)+5+5+(-2)+(-3)+5+(-3)+5=9(−3)+5+5+(−2)+(−3)+5+(−3)+5=9。因为两个基因的对应方法不唯一，例如又有：
在这里插入图片描述

相似度为：(-3)+5+5+(-2)+5+(-1)+5=14(−3)+5+5+(−2)+5+(−1)+5=14。规定两个基因的相似度为所有对应方法中，相似度最大的那个。

输入输出格式
输入格式：
共两行。每行首先是一个整数，表示基因的长度；隔一个空格后是一个基因序列，序列中只含A,C,G,T四个字母。
1≤序列的长度 ≤100。

输出格式：
仅一行，即输入基因的相似度。

输入输出样例
输入样例#1：复制
7 AGTGATG
5 GTTAG
输出样例#1：复制
14

分析可用f[i][j]表示s1前i项与s2前j项匹配的相似度。

int cmp[5][5]={{5,-1,-2,-1,-3},{-1,5,-3,-2,-4},{-2,-3,5,-2,-2},{-1,-2,-2,5,-1},{-3,-4,-2,-1,0}};
int find(char ch)//将字符转化成数值
{
	if(ch=='A') return 0;
	if(ch=='C') return 1;
	if(ch=='G') return 2;
	return 3;
}

void pre()//初始化
{
	for(int i=1;i<=l1;i++)
		for(int j=1;j<=l2;j++)
			f[i][j]=-inf;
	for(int i=1;i<=l1;i++)
		a1[i]=find(s1[i-1]);
	for(int i=1;i<=l2;i++)
		a2[i]=find(s2[i-1]);
	for(int i=1;i<=l1;i++)
		f[i][0]=f[i-1][0]+cmp[a1[i]][4];
	for(int i=1;i<=l2;i++)
		f[0][i]=f[0][i-1]+cmp[a2[i]][4];
}

可以推出递推公式为f[i][j]=max(f[i-1][j]+val(i,0),f[i][j-1]+val(j,0),f[i-1][j-1]+val(i,j));

for(int i=1;i<=l1;i++)//核心部分
	for(int j=1;j<=l2;j++)
		f[i][j]=max(max(f[i][j-1]+cmp[a2[j]][4],f[i-1][j]+cmp[a1[i]][4]),f[i-1][j-1]+cmp[a1[i]][a2[j]]);

完整程序：

#include <cstdio>
#include <iostream>
#include <cstring>
using namespace std;
const int inf=0x3f3f3f3f;
int l1,l2;
char s1[105],s2[105];
int f[105][105];
int cmp[5][5]={{5,-1,-2,-1,-3},{-1,5,-3,-2,-4},{-2,-3,5,-2,-2},{-1,-2,-2,5,-1},{-3,-4,-2,-1,0}};
int a1[105],a2[105];

int find(char ch)
{
	if(ch=='A') return 0;
	if(ch=='C') return 1;
	if(ch=='G') return 2;
	return 3;
}

void pre()
{
	for(int i=1;i<=l1;i++)
		for(int j=1;j<=l2;j++)
			f[i][j]=-inf;
	for(int i=1;i<=l1;i++)
		a1[i]=find(s1[i-1]);
	for(int i=1;i<=l2;i++)
		a2[i]=find(s2[i-1]);
	for(int i=1;i<=l1;i++)
		f[i][0]=f[i-1][0]+cmp[a1[i]][4];
	for(int i=1;i<=l2;i++)
		f[0][i]=f[0][i-1]+cmp[a2[i]][4];
}

int max(int a,int b){return a>b?a:b;}

int main()
{
	scanf("%d%s",&l1,s1);
	scanf("%d%s",&l2,s2);
	pre();
	for(int i=1;i<=l1;i++)
	{
		for(int j=1;j<=l2;j++)
		{
			f[i][j]=max(max(f[i][j-1]+cmp[a2[j]][4],f[i-1][j]+cmp[a1[i]][4]),f[i-1][j-1]+cmp[a1[i]][a2[j]]);
//			printf("f[%d][%d]=%d ",i,j,f[i][j]);
		}
//		printf("\n");
	}
	printf("%d\n",f[l1][l2]);
	return 0;
}