[bzoj1212][字典树][dp]L语言

本文介绍了一种用于处理无标点符号文本的算法。该算法通过构建Tire树来快速判断一段没有标点的文章是否能在给定字典下被理解,并找出最长可理解前缀的位置。适用于快速文本分析场景。

Description

标点符号的出现晚于文字的出现,所以以前的语言都是没有标点的。现在你要处理的就是一段没有标点的文章。 一段文章T是由若干小写字母构成。一个单词W也是由若干小写字母构成。一个字典D是若干个单词的集合。 我们称一段文章T在某个字典D下是可以被理解的,是指如果文章T可以被分成若干部分,且每一个部分都是字典D中的单词。 例如字典D中包括单词{‘is’, ‘name’, ‘what’, ‘your’},则文章‘whatisyourname’是在字典D下可以被理解的 因为它可以分成4个单词:‘what’, ‘is’, ‘your’, ‘name’,且每个单词都属于字典D,而文章‘whatisyouname’ 在字典D下不能被理解,但可以在字典D’=D+{‘you’}下被理解。这段文章的一个前缀‘whatis’,也可以在字典D下被理解 而且是在字典D下能够被理解的最长的前缀。 给定一个字典D,你的程序需要判断若干段文章在字典D下是否能够被理解。 并给出其在字典D下能够被理解的最长前缀的位置。

Input

输入文件第一行是两个正整数n和m,表示字典D中有n个单词,且有m段文章需要被处理。 之后的n行每行描述一个单词,再之后的m行每行描述一段文章。 其中1<=n, m<=20,每个单词长度不超过10,每段文章长度不超过1M。

Output

对于输入的每一段文章,你需要输出这段文章在字典D可以被理解的最长前缀的位置。

Sample Input

4 3
is
name
what
your
whatisyourname
whatisyouname
whaisyourname

Sample Output

14
6
0
整段文章’whatisyourname’都能被理解
前缀’whatis’能够被理解
没有任何前缀能够被理解

题解

发现一道水题怒刷5次RE
开始想着ac自动机,结果发现连自动机都不用建。一个Tire就够了。。
对单词建Tire,设f[i]表示文章中1~i这个串能否识别
那么,搜到每个位置,我们都暴力dp一遍
假设当前搜到的位置是单词了,设在串中匹配到了第k个地方
那么f[k]|=f[i],i表示起始点
最后从后往前乱搞即可

#include<cstdio>
#include<cstring>
#include<cstdlib>
#include<algorithm>
#include<cmath>
#include<queue>
using namespace std;
struct Tire
{
    int c[28],s;
    Tire(){s=0;memset(c,-1,sizeof(c));}
}tr[3100];int tot,root;
char s[1110000];
void add(int root)
{
    int x=root,len=strlen(s+1);
    for(int i=1;i<=len;i++)
    {
        int y=s[i]-'a'+1;
        if(tr[x].c[y]==-1)tr[x].c[y]=++tot;
        x=tr[x].c[y];
    }
    tr[x].s++;
}
int f[1110000];//能否识别前i个字母的串 
int solve()
{
    memset(f,0,sizeof(f));
    f[0]=1;int len=strlen(s);
    for(int i=0;i<len;i++)
    {
        if(f[i]==0)continue;
        int x=root,k=i;
        while(tr[x].c[s[k]-'a'+1]!=-1)
        {
            x=tr[x].c[s[k]-'a'+1];
            k++;if(k>len)break;//由于没有判边界怒送RE
            if(tr[x].s>0)f[k]|=f[i];
        }
    }
    for(int i=len;i>=0;i--)if(f[i]==1)return i;
}
int n,m;
int main()
{
    scanf("%d%d",&n,&m);
    root=tot=0;
    for(int i=1;i<=n;i++)
    {
        scanf("%s",s+1);
        add(0);
    }
    while(m--)
    {
        scanf("%s",s);
        printf("%d\n",solve());
    }
    return 0;
}
### 关于洛谷 P1481 的字典树 (Trie) 算法 #### 字典树 (Trie) 数据结构简介 字典树是一种用于高效存储和检索字符串集合的数据结构。它通过将公共前缀共享的方式来节省空间并提高查询效率。对于本题而言,字典树的核心思想在于构建一棵多叉树来表示一组单词的字符序列[^5]。 #### 构建字典树的过程 在字典树中,每个节点代表一个字符,而从根到某个节点的路径则构成了一部分字符串。以下是构建字典树的主要过程: 1. **初始化**: 创建一个根节点 `root`。 2. **插入操作**: 将每一个单词逐字符插入字典树中。如果当前字符不存在,则创建新的子节点;否则沿已有路径继续向下遍历直到完成整个单词的插入。 ```python class TrieNode: def __init__(self): self.children = {} self.is_end_of_word = False def insert(root, word): node = root for char in word: if char not in node.children: node.children[char] = TrieNode() node = node.children[char] node.is_end_of_word = True ``` #### 查询操作 为了判断某字符串是否存在或者统计某些特定条件下的匹配数量,可以通过递归或迭代的方式访问字典树中的相应节点。例如,在此题目背景下可能需要计算满足一定约束条件下能够组成的合法串数。 #### 动态规划与状态转移方程 由于题目涉及到构造固定长度且包含指定数目关键词汇表内的任意组合形式的新字符串问题,因此除了单纯依靠字典树外还需要引入动态规划的思想来进行求解。设 dp[i][j] 表示已经处理到了第 i 位,并且此时正好包含了 j 个目标词汇的情况总数,则有如下关系式成立: \[dp[i][j]=\sum_{w \in S} dp[i-len(w)][max(0,j-cnt[w])]\] 其中 \(S\) 是所有候选单词集,\(len(w)\) 和 \(cnt[w]\) 分别对应着单个词语本身的尺寸以及其贡献给最终计数值的部分大小[^4]。 #### 完整解决方案框架 综合以上分析我们可以给出这样一个完整的解决流程概述: - 初始化必要的辅助数组如 trie 结构体实例化对象; - 根据输入数据依次调用上述定义好的函数完成各项预处理工作比如建立索引映射关系等准备工作; - 使用双重循环枚举位置变量i及其关联参数k从而填充DP表格直至得出最后答案为止。 ```python MOD = int(1e9 + 7) trie_root = TrieNode() for word in words_set: insert(trie_root, word) # Initialize DP table with dimensions [N+1][K+1], where N is max length of string to be formed, # K represents number of distinct required substrings. dp = [[0]*(k_max+1) for _ in range(n_max+1)] dp[0][0] = 1 for l in range(1, n_max+1): for c in alphabet: current_node = trie_root temp_dp = list(dp[l]) # Traverse through possible prefixes ending at position 'l' prefix_length = 0 while current_node and prefix_length <= l: new_k = min(k_max, k_found[current_node]) if new_k >=0 : temp_dp[new_k]=(temp_dp[new_k]+dp[l-prefix_length][new_k-count(current_node)])% MOD if c in current_node.children: current_node=current_node.children[c] prefix_length+=1 else: break dp[l]=temp_dp[:] result=sum([d[k_target]%MOD for d in dp[n]]) print(result) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值