bzoj3940 [Usaco2015 Feb]Censoring AC自动机+栈

本文介绍了一种使用AC自动机进行文本过滤的方法,通过构建自动机实现高效匹配和删除敏感词,确保文本内容的安全性和合规性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Description


Farmer John has purchased a subscription to Good Hooveskeeping magazine for his cows, so they have plenty
of material to read while waiting around in the barn during milking sessions. Unfortunately, the latest
issue contains a rather inappropriate article on how to cook the perfect steak, which FJ would rather his
cows not see (clearly, the magazine is in need of better editorial oversight).
FJ has taken all of the text from the magazine to create the string S of length at most 10^5 characters.
He has a list of censored words t_1 … t_N that he wishes to delete from S. To do so Farmer John finds
the earliest occurrence of a censored word in S (having the earliest start index) and removes that instance
of the word from S. He then repeats the process again, deleting the earliest occurrence of a censored word
from S, repeating until there are no more occurrences of censored words in S. Note that the deletion of one
censored word might create a new occurrence of a censored word that didn’t exist before.
Farmer John notes that the censored words have the property that no censored word appears as a substring of
another censored word. In particular this means the censored word with earliest index in S is uniquely
defined.Please help FJ determine the final contents of S after censoring is complete.
FJ把杂志上所有的文章摘抄了下来并把它变成了一个长度不超过10^5的字符串S。他有一个包含n个单词的列表,列表里的n个单词
记为t_1…t_N。他希望从S中删除这些单词。
FJ每次在S中找到最早出现的列表中的单词(最早出现指该单词的开始位置最小),然后从S中删除这个单词。他重复这个操作直到S中
没有列表里的单词为止。注意删除一个单词后可能会导致S中出现另一个列表中的单词
FJ注意到列表中的单词不会出现一个单词是另一个单词子串的情况,这意味着每个列表中的单词在S中出现的开始位置是互不相同的
请帮助FJ完成这些操作并输出最后的S
len(S)<=10^5

Solution


容易想到建ac自动机后跑匹配就可以了,至于删除的问题可以记录每一位匹配到哪一个节点(写完才发现这是个栈
如果匹配的时候跳fail会T,因此需要预处理每个节点往后匹配会走到哪个节点

嘴巴AC后就开始漫长的调试之路,写了大概1h才发现下载的数据被我玩坏了,再搞一个测一测发现又是对的了╮(╯▽╰)╭
实测跑得飞快

Code


#include <stdio.h>
#include <string.h>
#include <queue>
#define rep(i,st,ed) for (int i=st;i<=ed;++i)

const int N=1000005;

std:: queue <int> que;

int rec[N][26],tot;
int pos[N],ans[N];
int fail[N],cnt[N];

char str[N],ptr[N];

void ins(char *str) {
    int len=strlen(str+1),now=0;
    rep(i,1,len) {
        int ch=str[i]-'a';
        if (!rec[now][ch]) rec[now][ch]=++tot;
        now=rec[now][ch];
    }
    cnt[now]=len;
}

void get_fail() {
    for (;!que.empty();) que.pop();
    rep(i,0,25) if (rec[0][i]) que.push(rec[0][i]);
    for (;!que.empty();) {
        int now=que.front(); que.pop();
        rep(i,0,25) {
            if (rec[now][i]) {
                fail[rec[now][i]]=rec[fail[now]][i];
                que.push(rec[now][i]);
            } else rec[now][i]=rec[fail[now]][i];
        }
    }
}

void solve(char *str) {
    int len=strlen(str+1),now=0;
    rep(i,1,len) {
        int ch=str[i]-'a'; ans[++ans[0]]=ch;
        now=rec[now][ch];
        pos[ans[0]]=now;
        if (cnt[now]) {
            ans[0]-=cnt[now];
            now=pos[ans[0]];
        }
    }
    rep(i,1,ans[0]) printf("%c", ans[i]+'a');
}

int main(void) {
    freopen("data.in","r",stdin);
    freopen("myp.out","w",stdout);
    scanf("%s",str+1);
    int n; scanf("%d",&n);
    rep(i,1,n) {
        scanf("%s",ptr+1);
        ins(ptr);
    } get_fail();
    solve(str);
    return 0;
}
题目描述 牛牛和她的朋友们正在玩一个有趣的游戏,他们需要构建一个有 $n$ 个节点的无向图,每个节点都有一个唯一的编号并且编号从 $1$ 到 $n$。他们需要从节点 $1$ 到节点 $n$ 找到一条最短路径,其中路径长度是经过的边权的和。为了让游戏更有趣,他们决定在图上添加一些额外的边,这些边的权值都是 $x$。他们想知道,如果他们添加的边数尽可能少,最短路径的长度最多会增加多少。 输入格式 第一行包含两个正整数 $n$ 和 $m$,表示节点数和边数。 接下来 $m$ 行,每行包含三个整数 $u_i,v_i,w_i$,表示一条无向边 $(u_i,v_i)$,权值为 $w_i$。 输出格式 输出一个整数,表示最短路径的长度最多会增加多少。 数据范围 $2 \leq n \leq 200$ $1 \leq m \leq n(n-1)/2$ $1 \leq w_i \leq 10^6$ 输入样例 #1: 4 4 1 2 2 2 3 3 3 4 4 4 1 5 输出样例 #1: 5 输入样例 #2: 4 3 1 2 1 2 3 2 3 4 3 输出样例 #2: 2 算法 (BFS+最短路) $O(n^3)$ 我们把问题转化一下,假设原图中没有添加边,所求的就是点 $1$ 到点 $n$ 的最短路,并且我们已经求出了这个最短路的长度 $dis$。 接下来我们从小到大枚举边权 $x$,每次将 $x$ 加入图中,然后再次求解点 $1$ 到点 $n$ 的最短路 $dis'$,那么增加的最短路长度就是 $dis'-dis$。 我们发现,每次加入一个边都需要重新求解最短路。如果我们使用 Dijkstra 算法的话,每次加入一条边需要 $O(m\log m)$ 的时间复杂度,总的时间复杂度就是 $O(m^2\log m)$,无法通过本题。因此我们需要使用更优秀的算法。 观察到 $n$ 的范围比较小,我们可以考虑使用 BFS 求解最短路。如果边权均为 $1$,那么 BFS 可以在 $O(m)$ 的时间复杂度内求解最短路。那么如果我们只是加入了一条边的话,我们可以将边权为 $x$ 的边看做 $x$ 条边的组合,每次加入该边时,我们就在原始图上添加 $x$ 条边,边权均为 $1$。这样,我们就可以使用一次 BFS 求解最短路了。 但是,我们不得不考虑加入多条边的情况。如果我们还是将边权为 $x$ 的边看做 $x$ 条边的组合,那么我们就需要加入 $x$ 条边,而不是一条边。这样,我们就不能使用 BFS 了。 但是,我们可以使用 Floyd 算法。事实上,我们每次加入边时,只有边权等于 $x$ 的边会发生变化。因此,如果我们枚举边权 $x$ 时,每次只需要将边权等于 $x$ 的边加入图中,然后使用 Floyd 算法重新计算最短路即可。由于 Floyd 算法的时间复杂度为 $O(n^3)$,因此总的时间复杂度为 $O(n^4)$。 时间复杂度 $O(n^4)$ 空间复杂度 $O(n^2)$ C++ 代码 注意点:Floyd算法计算任意两点之间的最短路径,只需要在之前的路径基础上加入新的边构成的新路径进行更新即可。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值