51nod 1565 模糊搜索

本文介绍了一种使用快速傅立叶变换(FFT)进行模糊字符串匹配的方法,特别适用于基因序列匹配问题。通过将问题分解为针对每种字符类型的独立匹配过程,并利用FFT加速计算,该方法能在给定的模糊度范围内高效地找出子串在主串中的出现次数。

有两个基因串S和T,他们只包含AGCT四种字符。现在你要找出T在S中出现了几次。

有一个门限值k≥0。T在S的第i(1≤i≤|S|-|T|+1)个位置中出现的条件如下:把T的开头和S的第i个字符对齐,然后T中的每一个字符能够在S中找到一样的,且位置偏差不超过k的,那么就认为T在S的第i个位置中出现。也就是说对于所有的 j (1≤j≤|T|),存在一个 p (1≤p≤|S|),使得|(i+j-1)-p|≤k 和[p]=T[j]都成立。

例如,根据这样的定义"ACAT"出现在"AGCAATTCAT"的第2,3和6的位置。


如果k=0,那么这个就是经典的字符串匹配问题。

现在给定门限和两个基因串S,T,求出T在S中出现的次数。


Input
单组测试数据。
第一行有三个整数 |S|,|T|,k (1≤|T|≤|S|≤200000, 0≤k≤200000),表示S的长度,T的长度,门限值。
第二行给出基因串S。
第三行给出基因串T。
两个串都只包含大写字母'A', 'T', 'G' 和'C'。
Output
输出一个整数,表示T在S中出现的次数。
Input示例
样例输入1
10 4 1
AGCAATTCAT
ACAT
Output示例
样例输出1
3
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

FFT+思路~

一共只有4种字符,所以我们把这四种分开匹配,再用&把所有答案综合起来。

因为是模糊匹配,所以在[x-k,x+k]范围内都是可以模糊地计算到x上的。所以我们把每个x的左右k位都划分成1,这样就能匹配到[x-k,x+k]的范围内了。

然后我们把b反向,用4次FFT,检验匹配是否可行。

这次写FFT我学了自己开struct表示complex的方法,如果用complex的话估计就过不了了~

数组要开大!

我的代码常数巨大,1s卡过……所以如果发现T掉了1个点,再交一次就能过辣。


#include<cstdio>
#include<cstring>
#include<iostream>
#include<cmath>
using namespace std;
#define pi acos(-1)

int n,m,n1,m1,r[800001],l,c[800001],id[128],A[4][800001],B[4][800001],ans[800001],totans,k;
char s[800001]; 

struct E{
	double a,b;
	E() {}
	E(double u,double v):a(u),b(v) {}
	E operator + (const E&u) const {return E(a+u.a,b+u.b);}
	E operator - (const E&u) const {return E(a-u.a,b-u.b);}
	E operator * (const E&u) const {return E(a*u.a-b*u.b,a*u.b+b*u.a);}
	E operator ! () {return E(a,-b);}
}a[800001],b[800001];

void fft(E *u,int v)
{
	for(int i=0;i<n;i++) if(r[i]>i) swap(u[r[i]],u[i]);
	for(int i=1;i<n;i<<=1)
	{
		E wn(cos(pi/i),sin(pi/i)*v);
		for(int j=0;j<n;j+=(i<<1))
		{
			E w(1,0);
			for(int k=0;k<i;k++,w=w*wn)
			{
				E x=u[j+k],y=u[i+j+k]*w;
				u[j+k]=x+y;u[i+j+k]=x-y;
			}
		}
	}
	if(v==-1) for(int i=0;i<n;i++) u[i].a/=n;
}

int main()
{
	id['A']=0;id['T']=1;id['C']=2;id['G']=3;
	scanf("%d%d%d",&n1,&m1,&k);
	scanf("%s",s);
	for(int i=0;i<n1;i++)
	{
		int kk=id[s[i]];
		A[kk][i]=1;
		for(int j=i+1;j<=min(n1-1,i+k);j++)
		  if(id[s[j]]==kk) break;
		  else A[kk][j]=1;
		for(int j=i-1;j>=max(0,i-k);j--)
		  if(A[kk][j]) break;
		  else A[kk][j]=1;
	}
	scanf("%s",s);
	for(int i=0;i<m1;i++) B[id[s[i]]][m1-i-1]=1;
	m=n1+m1;for(int i=m1-1;i<=m-2;i++) ans[i]=1;
	for(n=1;n<=m;n<<=1) l++;
	for(int i=0;i<n;i++) r[i]=(r[i>>1]>>1)|((i&1)<<(l-1));
	for(int k=0;k<4;k++)
	{
		memset(a,0,sizeof(a));
		memset(b,0,sizeof(b));
		for(int i=0;i<n1;i++) a[i]=E(A[k][i],0);
		for(int i=0;i<m1;i++) b[i]=E(B[k][i],0);
		fft(a,1);fft(b,1);
		for(int i=0;i<=n;i++) a[i]=a[i]*b[i];
		fft(a,-1);
		for(int i=0;i<=n;i++) c[i]=(int)(a[i].a+0.5);
		int now=0;
		for(int i=0;i<m1;i++) now+=B[k][i];
		for(int i=m1-1;i<=m-2;i++) ans[i]&=(c[i]==now);
	}
	for(int i=m1-1;i<=m-2;i++) totans+=ans[i];
	printf("%d\n",totans);
	return 0;
}


题目 51nod 3478 涉及一个矩阵问题,要求通过最少的操作次数,使得矩阵中至少有 `RowCount` 行和 `ColumnCount` 列是回文的。解决这个问题的关键在于如何高效地枚举所有可能的行和列组合,并计算每种组合所需的操作次数。 ### 解法思路 1. **预处理每一行和每一列变为回文所需的最少操作次数**: - 对于每一行,计算将其变为回文所需的最少操作次数。这可以通过比较每对对称位置的值是否相同来完成。 - 对于每一列,计算将其变为回文所需的最少操作次数,方法同上。 2. **枚举所有可能的行和列组合**: - 由于 `N` 和 `M` 的最大值为 8,因此可以枚举所有可能的行组合和列组合。 - 对于每一种组合,计算其所需的最少操作次数,并取最小值。 3. **计算操作次数**: - 对于每一种组合,需要计算哪些行和列需要修改,并且注意行和列的交叉点可能会重复计算,因此需要去重。 ### 代码实现 以下是一个可能的实现方式,使用了枚举和位运算来处理组合问题: ```python def min_operations_to_palindrome(matrix, row_count, col_count): import itertools N = len(matrix) M = len(matrix[0]) # Precompute the cost to make each row a palindrome row_cost = [] for i in range(N): cost = 0 for j in range(M // 2): if matrix[i][j] != matrix[i][M - 1 - j]: cost += 1 row_cost.append(cost) # Precompute the cost to make each column a palindrome col_cost = [] for j in range(M): cost = 0 for i in range(N // 2): if matrix[i][j] != matrix[N - 1 - i][j]: cost += 1 col_cost.append(cost) min_total_cost = float('inf') # Enumerate all combinations of rows and columns rows = list(range(N)) cols = list(range(M)) from itertools import combinations for row_comb in combinations(rows, row_count): for col_comb in combinations(cols, col_count): # Calculate the cost for this combination cost = 0 # Add row costs for r in row_comb: cost += row_cost[r] # Add column costs for c in col_comb: cost += col_cost[c] # Subtract the overlapping cells for r in row_comb: for c in col_comb: # Check if this cell is part of the palindrome calculation if r < N // 2 and c < M // 2: if matrix[r][c] != matrix[r][M - 1 - c] and matrix[N - 1 - r][c] != matrix[N - 1 - r][M - 1 - c]: cost -= 1 min_total_cost = min(min_total_cost, cost) return min_total_cost # Example usage matrix = [ [0, 1, 0], [1, 0, 1], [0, 1, 0] ] row_count = 2 col_count = 2 result = min_operations_to_palindrome(matrix, row_count, col_count) print(result) ``` ### 代码说明 - **预处理成本**:首先计算每一行和每一列变为回文所需的最少操作次数。 - **枚举组合**:使用 `itertools.combinations` 枚举所有可能的行和列组合。 - **计算成本**:对于每一种组合,计算其成本,并考虑行和列交叉点的重复计算问题。 ### 复杂度分析 - **时间复杂度**:由于 `N` 和 `M` 的最大值为 8,因此枚举所有组合的时间复杂度为 $ O(N^{RowCount} \times M^{ColCount}) $,这在实际中是可接受的。 - **空间复杂度**:主要是存储预处理的成本,空间复杂度为 $ O(N + M) $。 ### 相关问题 1. 如何优化矩阵中行和列的枚举组合以减少计算时间? 2. 在计算行和列的交叉点时,如何更高效地处理重复计算的问题? 3. 如果矩阵的大小增加到更大的范围,如何调整算法以保持效率? 4. 如何处理矩阵中行和列的回文条件不同时的情况? 5. 如何扩展算法以支持更多的操作类型,例如翻转某个区域的值?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值