POJ 3691 DNA repair AC自动机 + dp

本文通过一道POJ题目,详细解析了AC自动机的构建过程及其在字符串匹配问题中的应用。重点介绍了失败指针的概念及求解方法,并通过动态规划实现了最小修改次数的计算。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

传送门:POJ3691

题意:给定一个原字符串S和n个禁止模式串p1,p2...pn,请修改字符串S,使得其中不包含任何禁止模式串,只能将S中的字符修改为其他字符而不能增加或删除,如果怎么修改都不行,输出-1,否则输出最少修改次数。

思路:挑战程序设计P370例题,但是白书上不是用ac自动机做的,而是暴力预处理,我看网上dalao都是ac自动机或者说Trie图预处理,就学着写了一发,这也是第一道ac自动机的题目。


下面是我自己觉得一个较好的对fail指针和构建ac自动机过程的解释:

首先,讲一下失败指针的含义,因为之前提到,一个模式串的某个字符匹配失败的时候,就跳到它的失败指针上继续匹配,重复上述操作,直到这个字符匹配成功,所以失败指针一定满足一个性质,它指向的一定是某个串的前缀,并且这个前缀是当前结点所在前缀的后缀,而且一定是最长后缀。仔细理解一下这句话,首先,一定是某个串的前缀,这是显然的,因为trie树本来就是前缀树,它的任意一个结点都是某个模式串的前缀;然后再来看后面一句话,为了让当前字符能够找到匹配,那么当前结点的某个后缀必须要和某个模式串的前缀相匹配,这个性质就和KMP的next数组不谋而合了。

       然后,就是来看如何利用BFS求出所有结点的失败指针了。

 

       1) 对于根结点root的失败指针,我们将它直接指向NULL,对于根结点下所有的子结点,失败指针一定是指向root的,因为当一个字符都不能匹配的时候,自然也就不存在更短的能够与之匹配的前缀了;

       2) 将求完失败指针的结点插入队列中;

       3) 每次弹出一个结点now,询问它的每个字符对应的子结点,为了阐述方便,我们将now的i号子结点记为now->next[i]:

              a) 如果now->next[i]为NULL,那么将now->next[i]指向now的失败指针的i号子结点, 即 now->next[i] = now->fail->next[i];

              b) 如果now->next[i]不等于NULL,则需要构造now->next[i]的失败指针,由于a)的操作,我们知道now的失败指针一定存在一个i号子结点,即now->fail->next[i],那么我们将now->next[i]的失败指针指向它,即now->next[i]->fail = now->fail->next[i];

       4) 重复2)的操作直到队列为空;

转载自: 点击打开链接


再回过头来说这个题,ac自动机构建过程中需要注意的一点就是禁止串标记的传递性,根据fail指针特点,若某个结点fail指针指向的是禁止结点,那么当前结点一定也是禁止结点,这一点不明白的可以画画图模拟一下,然后就是dp过程,dp[i][j] := 处理到主串第i个结点,对应于Trie图中的j结点所需要的最少操作。状态就根据Trie图进行转移就好了。

代码:

#include<iostream>
#include<stdio.h>
#include<string.h>
#include<queue>
#include<algorithm>
#define ll long long
#define pb push_back
#define fi first
#define se second
#define pi acos(-1)
#define inf 0x3f3f3f3f
#define lson l,mid,rt<<1
#define rson mid+1,r,rt<<1|1
#define rep(i,x,n) for(int i=x;i<n;i++)
#define per(i,n,x) for(int i=n;i>=x;i--)
#define next nxt
using namespace std;
typedef pair<int,int>P;
const int MAXN=1010;
int gcd(int a,int b){return b?gcd(b,a%b):a;}
int h[300];
struct Trie{
	int next[MAXN][4], fail[MAXN];
	bool end[MAXN];
	int root, L;
	void insert(char buf[])
	{
		int len = strlen(buf), now = 0;
		for(int i = 0; i < len; i++)
		{
			if(next[now][h[buf[i]]] == -1) next[now][h[buf[i]]] = ++L;
			now = next[now][h[buf[i]]];
		}
		end[now] = 1;
	}
	void init()
	{
		root = L = 0;
		memset(next, -1, sizeof(next));
		memset(fail, 0, sizeof(fail));
		memset(end, 0, sizeof(end)); 
	}
	void build()
	{
		queue<int>q;
		fail[root] = root;
		for(int i = 0; i < 4; i++)
		if(next[root][i] == -1)
		next[root][i] = root;
		else
		{
			fail[next[root][i]] = root;
			q.push(next[root][i]);
		}
		while(!q.empty())
		{
			int now = q.front(); q.pop();
			for(int i = 0; i < 4; i++)
			{
				int tmp = next[fail[now]][i];
				if(next[now][i] == -1)
				next[now][i] = tmp;
				else
				{
					fail[next[now][i]] = tmp;
					end[next[now][i]] |= end[tmp];
					q.push(next[now][i]);
				}
			}			
		}
	}
};
int dp[1100][1100];
int main()
{
	h['A'] = 0;h['G'] = 1;
	h['C'] = 2;h['T'] = 3;
	Trie ac;
	int n, kase = 1;
	char s[MAXN];
	while(cin >> n, n)
	{
		ac.init();
		for(int i = 0; i < n; i++)
		{
			scanf("%s", s);
			ac.insert(s);
		}
		ac.build();
		scanf("%s", s);
		memset(dp, inf, sizeof(dp));
		int len = strlen(s);
		dp[0][0] = 0;
		for(int i = 1; i <= len; i++)
		{
			for(int j = 0; j <= ac.L; j++)
			{
				if(dp[i - 1][j] == inf) continue;
				for(int k = 0; k < 4; k++)
				{
					int tmp = ac.next[j][k];
					if(!ac.end[tmp])
					dp[i][tmp] = min(dp[i][tmp], dp[i - 1][j] + (h[s[i - 1]] == k ? 0 : 1));
				}//注意问号表达式的优先级,一开始没加括号,白白debug半天
			}
		}
		int ans = *min_element(dp[len], dp[len] + ac.L + 1);
		if(ans == inf) ans = -1;
		printf("Case %d: %d\n", kase++, ans);
	}
 	return 0;
}



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值