bzoj3473: 字符串 && bzoj3277串

本文介绍使用后缀数组解决一类字符串问题的方法:给定多个字符串,计算每个字符串中有多少子串是至少k个字符串的共同子串。通过连接字符串并进行后缀数组构建,利用高度数组和区间最小值查询优化计算。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

3473: 字符串

Time Limit: 20 Sec  Memory Limit: 256 MB
Submit: 121  Solved: 53
[Submit][Status][Discuss]

Description

给定n个字符串,询问每个字符串有多少子串(不包括空串)是所有n个字符串中至少k个字符串的子串?

Input

第一行两个整数n,k。
接下来n行每行一个字符串。

Output

一行n个整数,第i个整数表示第i个字符串的答案。

Sample Input

3 1
abc
a
ab

Sample Output

6 1 3

HINT



对于 100% 的数据,1<=n,k<=10^5,所有字符串总长不超过10^5,字符串只包含小写字母。

Source

Adera 1 杯冬令营模拟赛

 

很久之前做的题今天一看竟然不会做了。。。于是补篇题解。

首先把所有串连起来做一遍SA,求出hight,然后在后缀数组上从前往后扫。

那么现在要求的就是当前这个后缀有多少前缀是至少k个串的子串,这些前缀一定是连续的一段,因为如果Sx出现了k次,那么S也一定出现了k次。

设当前位是i,我们现在拥有后缀数组上一位的答案lastans,那么把它与hight[i]取一个min得到x,那么这位的答案至少是x。

然后考虑这位新出现的子串,那些包含这些子串的位置一定在i下面,那么维护一个指针使当前区间内刚好包含k个不同串的任意一个后缀,当i++时指针往后扫。

那么指针的位置与i用ST表求个区间RMQ,用x与这个区间最小值取max就是当前位的答案。

复杂度$nlogn$

感觉后缀自动机的做法很不科学

 

#include<iostream>
#include<cstdio>
#include<cstring>
#include<algorithm>
#define N 300005
#define ll long long
using namespace std;
int n,k;
int sa[N],rank[N],wb[N],sum[N],c[N];
void getsa(int n,int m)
{
    int *x=rank,*y=wb;
    for(int i=0;i<m;i++)sum[i]=0;
    for(int i=0;i<n;i++)sum[x[i]=c[i]]++;
    for(int i=1;i<m;i++)sum[i]+=sum[i-1];
    for(int i=n-1;i>=0;i--)sa[--sum[x[i]]]=i;
    int p=1;
    for(int j=1;p<n;j<<=1,m=p)
    {
        p=0;
        for(int i=n-j;i<n;i++)y[p++]=i;
        for(int i=0;i<n;i++)if(sa[i]>=j)y[p++]=sa[i]-j;   
        for(int i=0;i<m;i++)sum[i]=0;
        for(int i=0;i<n;i++)sum[x[i]]++;
        for(int i=1;i<m;i++)sum[i]+=sum[i-1];
        for(int i=n-1;i>=0;i--)sa[--sum[x[y[i]]]]=y[i];
        swap(x,y);x[sa[0]]=0;p=1;
        for(int i=1;i<n;i++)
          x[sa[i]]=y[sa[i]]==y[sa[i-1]]&&y[sa[i]+j]==y[sa[i-1]+j]?p-1:p++;
    }
}
int h[N];
void calh(int n)
{
    for(int i=1;i<=n;i++)rank[sa[i]]=i;
    int kk=0;
    for(int i=0;i<n;i++)
    {
        if(kk)kk--;
        int j=sa[rank[i]-1];
        while(c[i+kk]==c[j+kk])kk++;
        h[rank[i]]=kk;
    }
    return ;
}
int mn[N][20],lg[N];
void ST()
{
    lg[0]=-1;
    for(int i=1;i<=n;i++)lg[i]=lg[i>>1]+1;
    for(int i=1;i<=n;i++)mn[i][0]=h[i];
    for(int i=1;i<=19;i++)
    {
        for(int j=1;j<=n;j++)
        {
            if(j+(1<<(i-1))<=n)mn[j][i]=min(mn[j][i-1],mn[j+(1<<(i-1))][i-1]);
            else mn[j][i]=mn[j][i-1];
        }
    }return ;
}
int qur(int l,int r)
{
    int k=lg[r-l+1];
    return min(mn[l][k],mn[r-(1<<k)+1][k]);
}
int be[N];
ll ans[N];
int len[N],sz[N];
int now[N],nw;
void solve()
{
    int l=0;int tmp=0;
    for(int i=1;i<=n;i++)
    {
        if(i!=1&&be[sa[i-1]]!=0)
        {
            now[be[sa[i-1]]]--;
            if(!now[be[sa[i-1]]])nw--;
        }
        while(l!=n&&nw<k)
        {
            l++;
            if(be[sa[l]]!=0)
            {
                now[be[sa[l]]]++;
                if(now[be[sa[l]]]==1)nw++;
            }
        }
        tmp=min(tmp,h[i]);
        if(nw==k)
        {
            if(be[sa[i]])
            {
                int num;
                if(l!=i)num=qur(i+1,l);
                else num=sz[sa[i]];
                tmp=max(tmp,num);
            }
        }
        ans[be[sa[i]]]+=tmp;
    }
    return ;
}
char s[N];
int main()
{
    int cnt;
    scanf("%d%d",&cnt,&k);
    int m=256;n=-1;
    for(int i=1;i<=cnt;i++)
    {
        scanf("%s",s+1);len[i]=strlen(s+1);
        for(int j=1;j<=len[i];j++)
        {
            c[++n]=s[j];
            be[n]=i;
            sz[n]=len[i]-j+1;
        }
        if(i!=cnt)c[++n]=m++;
    }n++;
    getsa(n+1,m);calh(n);
    ST();
    solve();
    for(int i=1;i<cnt;i++)printf("%lld ",ans[i]);
    printf("%lld",ans[cnt]);
    return 0;
}

 

  

 

  

转载于:https://www.cnblogs.com/ezyzy/p/6736060.html

### BZOJ1461 字符串匹配 题解 针对BZOJ1461字符串匹配问题,解决方法涉及到了KMP算法以及树状数组的应用。对于此类问题,朴素的算法无法满足时间效率的要求,因为其复杂度可能高达O(ML²),其中M代表模式的数量,L为平均长度[^2]。 为了提高效率,在这个问题中采用了更先进的技术组合——即利用KMP算法来预处理模式,并通过构建失配树(也称为失败指针),使得可以在主上高效地滑动窗口并检测多个模式的存在情况。具体来说: - **前缀函数与KMP准备阶段**:先对每一个给定的模式执行一次KMP算法中的pre_kmp操作,得到各个模式对应的next数组。 - **建立失配树结构**:基于所有模式共同构成的一棵Trie树基础上进一步扩展成带有失配链接指向的AC自动机形式;当遇到某个节点不存在对应字符转移路径时,则沿用该处失配链路直至找到合适的目标或者回到根部重新开始尝试其他分支。 - **查询过程**:遍历整个待查文本序列的同时维护当前状态处于哪一层级下的哪个子结点之中,每当成功匹配到完整的单词就更新计数值至相应位置上的f_i变量里去记录下这一事实。 下面是简化版Python代码片段用于说明上述逻辑框架: ```python from collections import defaultdict def build_ac_automaton(patterns): trie = {} fail = [None]*len(patterns) # 构建 Trie 树 for i,pattern in enumerate(patterns): node = trie for char in pattern: if char not in node: node[char]={} node=node[char] node['#']=i queue=[trie] while queue: current=queue.pop() for key,value in list(current.items()): if isinstance(value,int):continue if key=='#': continue parent=current[key] p=fail[current is trie and 0 or id(current)] while True: next_p=p and p.get(key,None) if next_p:break elif p==0: value['fail']=trie break else:p=fail[id(p)] if 'fail'not in value:value['fail']=next_p queue.append(parent) return trie,fail def solve(text, patterns): n=len(text) m=len(patterns) f=[defaultdict(int)for _in range(n)] ac_trie,_=build_ac_automaton(patterns) state=ac_trie for idx,char in enumerate(text+'$',start=-1): while True: trans=state.get(char,state.get('#',{}).get('fail')) if trans!=None: state=trans break elif '#'in state: state[state['#']['fail']] else: state=ac_trie cur_state=state while cur_state!={}and'#'in cur_state: matched_pattern_idx=cur_state['#'] f[idx][matched_pattern_idx]+=1 cur_state=cur_state['fail'] result=[] for i in range(len(f)-1): row=list(f[i].values()) if any(row): result.extend([sum((row[:j+1]))for j,x in enumerate(row[::-1])if x>0]) return sum(result) patterns=["ab","bc"] text="abc" print(solve(text,text)) #[^4] ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值