题意
有m种DNA序列是有疾病的,问有多少种长度为n的DNA序列不包含任何一种有疾病的DNA序列。(仅含A,T,C,G四个字符)
•样例m=4,n=3,{“AA”,”AT”,”AC”,”AG”}
•答案为36,表示有36种长度为3的序列可以不包含疾病
首先申明,这道题我自己也没想出来,是看了这位朋友的博客才豁然开朗的。深感奇妙,自己记录下来以表敬意。
https://blog.youkuaiyun.com/morgan_xww/article/details/7834801
但是,这位大牛也有个地方没有解释。我在这篇博客里解释一下,等会下面会解释。
初步分析
这道题如果是用全排列去做的话复杂度至少是O(mn4^n),这也太大了,那么应该怎么做呢?思路是用AC自动机去构造Tire图
那么什么是Tire图呢?
就是让Tire树中的每个结点p的ch[p][i]值都有所指,如果ch[p][i]==-1的话就让她指向ch[fail[p]][i]的值,同样是bfs建立。
然后定义一个dangerous数组,首先在插入的时候,如果cnt[p]>0的话,就把这个点设为危险结点,即将dangerous的值设为1,但是这样也没有完,在建立Tire图中若有一个结点的fail指向的结点是危险结点,那么这个结点也应该是危险结点。如ABC,B都是疾病序列的话,除了2,3是危险结点外,1号肯定也是的。
接下来用矩阵存图
我们已经建立了Tire图,若有tot+1个家电则定义一个a[tot+1][tot+1]的矩阵,a[i][j]表示点i到点j的路径数【每条路径就是唯一的序列】由于在离散数学中我们学到A^n中a[i][j]的值就是点i到点j长度为n路径数。但是这里我们应该让所有危险结点(dangerous[i]==1 || dangerous[j]==1)的a[i][j]值全部为0。为什么呢?
假如我们要求op长度为n的路径数
1:假如k1是dangerous点,那么m条路径都是疾病序列所以m=0 解释了 dangerous[j]==1
2若k1不是dangerous点,k2是的,如果我们不算dangerous[i]==1的情况,那么t2就不是0,那么从k1到p就包含了t1t2中路径,所以从o到p就包含了mt1*t2条路径,但这是不行的,包含了从o到k2的疾病序列,因此t2=0,这也解释了dangerous[i]==1的情况
通过这两点我们就能保证最后n次幂之后的 Σ(M[0,i]) mod 100000 就是答案。既不包括疾病序列,也不会少。
直接上代码
#include <iostream>
#include <string.h>
using namespace std;
const int MAX_N=10000;
const int MAX_C=4;
const int mod=10000;
int x,n,length;
typedef struct matrix{
long long a[100][100];
}Matrix;
Matrix matrix_mul(Matrix A,Matrix B,int mod ){
Matrix C;
for(int i=0;i<n;++i){
for(int j=0;j<n;++j){
int ans=0;
for(int k=0;k<n;++k){
ans+=A.a[i][k]*B.a[k][j]%mod;
}
C.a[i][j]=ans%mod;
}
}
return C;
}
Matrix matrix_pow(Matrix A,int length,int mod){
if(length==1)
return A;
Matrix temp;
temp=matrix_pow(A,length/2,mod);
temp=matrix_mul(temp,temp,mod);
if(length%2==1){
temp=matrix_mul(temp,A,mod);
}
return temp;
}
struct Tire{
int ch[MAX_N][MAX_C];
int tot;
int cnt[MAX_N];
int fail[MAX_N];
int dangerous[MAX_N];
int id[250];
void init() {
id['A']=0;
id['T']=1;
id['C']=2;
id['G']=3;
for (int i = 0; i < MAX_N; ++i)
for (int j = 0; j < MAX_C; ++j)
ch[i][j] = -1;
memset(cnt, 0, sizeof(cnt));
memset(dangerous,0, sizeof(dangerous));
tot = 0;
}
void insert(string str){
int p=0;
for(int i=0;str[i];++i){
if(ch[p][id[str[i]]]==-1){
ch[p][id[str[i]]]=++tot;
}
p=ch[p][id[str[i]]];
}
cnt[p]++;
dangerous[p]=1;
}
//构造fail指针和trie图
void construct(){
int q[MAX_N];
int l=0,r=0;
int p=0;
fail[0]=0;
for(int i=0;i<MAX_C;++i){
if(ch[p][i]!=-1){
q[r++]=ch[p][i];
fail[ch[p][i]]=0;
}
else{
ch[p][i]=0;
}
}
while(l<r){
p=q[l++];
for(int i=0;i<MAX_C;++i){
if(ch[p][i]==-1){
ch[p][i]=ch[fail[p]][i];
}
else{
q[r++]=ch[p][i];
fail[ch[p][i]]=ch[fail[p]][i];
if(dangerous[ch[fail[p]][i]]==1){
dangerous[ch[p][i]]=1;
}
}
}
}
}
}AC;
int main() {
cin>>x>>length;
AC.init();
for(int i=0;i<x;++i){
string arr;
cin>>arr;
AC.insert(arr);
}
AC.construct();
Matrix A;
for(int i=0;i<=AC.tot;++i){
for(int j=0;j<MAX_C;++j) {
int v = AC.ch[i][j];
if (AC.dangerous[i] == 1 || AC.dangerous[v] == 1) {
A.a[i][v] = 0;
} else
A.a[i][v]++;
}
}
n=AC.tot+1;
A=matrix_pow(A,length,mod);
for(int i=0;i<=AC.tot;++i){
for(int j=0;j<=AC.tot;++j){
cout<<A.a[i][j]<<" ";
}
cout<<endl;
}
int answer=0;
for (int i=0;i<=AC.tot;++i)
answer+=A.a[0][i];
cout<<answer;
return 0;
}