最长公共子序列,英文缩写为LCS(Longest Common Subsequence)。其定义是,一个序列 S ,如果分别是两个或多个已知序列的子序列,且是所有符合此条件序列中最长的,则 S 称为已知序列的最长公共子序列。而最长公共子串(要求连续)和最长公共子序列是不同的。
序列比对算法是生物信息学中经常使用的方法,而寻找两个序列的最长公共子序列也是其中的基础。除了暴力查找,动态规划是解决最长公共子序列的常用算法。
问题分析
假设Zk={z1,z2,⋯,zk}|Zk={z1,z2,⋯,zk}|是序列Xm={x1,x2,⋯,xm}Xm={x1,x2,⋯,xm}和Yn={y1,y2,⋯,yn}Yn={y1,y2,⋯,yn}的最长公共子序列。那么其中可能存在的子问题有三个:
1. zk=xm=ynzk=xm=yn,则Zk−1Zk−1是Xm−1Xm−1和Yn−1Yn−1的最长公共子序列
2. zk≠xm,xm≠ynzk≠xm,xm≠yn则ZkZk是Xm−1Xm−1和YnYn的最长公共子序列
3. zk≠yn,xm≠ynzk≠yn,xm≠yn则ZkZk是XmXm和Yn−1Yn−1的最长公共子序列
由以上分析(三点均可用反证法证明),可以得到问题的递推公示:
设c[i][j]c[i][j]表示序列XiXi和YiYi的最长公共子序列的长度,则有:
程序实现
#include <iostream>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define NUM 1000
using namespace std;
int c[NUM][NUM];
int b[NUM][NUM];
void LCSLength(int m,int n,char x[],char y[]);
void LCS(int m,int n,char x[]);
int main(int argc, char *argv[]) {
char x[NUM];
char y[NUM];
int m, n;
scanf("%d\n", &m);
for (int i=1; i<=m; i++)
scanf("%c", &x[i]);
scanf("%d\n", &n);
for (int i=1; i<=n; i++)
scanf("%c", &y[i]);
LCSLength(m, n, x, y);
printf("%d\n", c[m][n]);
LCS(m,n,x);
return 0;
}
void LCSLength(int m,int n,char x[],char y[]){
int i,j;
for(i = 1; i <= m; i++)
c[i][0] = 0;
for(j = 1; j <= n; j++)
c[0][j] = 0;
for(i = 1; i <= m; i++) {
for(j = 1; j <= n; j++) {
if(x[i] == y[j]) {
c[i][j] = c[i-1][j-1] + 1;
b[i][j] = 1;
}
else if(c[i-1][j] >= c[i][j-1]) {
c[i][j] = c[i-1][j];
b[i][j] = 3;
}
else {
c[i][j] = c[i][j-1];
b[i][j] = 2;
}
}
}
}
void LCS(int i,int j,char x[]) {
if(i == 0 || j == 0)
return;
if(b[i][j] == 1) {
LCS(i-1,j-1,x);
cout << x[i];
}
else if(b[i][j] == 2)
LCS(i,j-1,x);
else
LCS(i-1,j,x);
}