【OI练习】单词查找树

最新推荐文章于 2025-06-09 11:58:07 发布

原创最新推荐文章于 2025-06-09 11:58:07 发布 · 636 阅读

0 ·

CC 4.0 BY-SA版权

NOIP 同时被 2 个专栏收录

7 篇文章

订阅专栏

树

1 篇文章

订阅专栏

本文介绍了一种高效构建单词查找树的方法，通过对单词列表进行字典排序并计算相邻单词间的差值来快速得出所需节点总数。

【OI练习】单词查找树

Description

        在进行文法分析的时候，通常需要检测一个单词是否在我们的单词列表里。为了提高查找和定位的速度，通常都画出与单词列表所对应的单词查找树，其特点如下：
        (1) 根结点不包含字母，除根结点外每一个结点都仅包含一个大写英文字母；
        (2) 从根结点到某一结点，路径上经过的字母依次连起来所构成的字母序列，称为该结点对应的单词。单词列表中的每个单词，都是该单词查找树某个结点所对应的单词；
        (3) 在满足上述条件下，该单词查找树的结点数最少。
        (4) 例如，下图左边的单词列表就对应下图右边的单词查找树。注意，对一个确定的单词列表，请统计对应的单词查找树的结点数（包含根结点）。

这里写图片描述

Input

        该文件为一个单词列表，每一行仅包含一个单词和一个换行/回车符。每个单词仅由大写的英文字母组成，长度不超过63个字母 。文件总长度不超过32K，至少有一行数据。

Output

        该文件中仅包含一个整数和一个换行/回车符。该整数为单词列表对应的单词查找树的结点数。

Sample Input

A
AN
ASP
AS
ASC
ASCII
BAS
BASIC

Sample Output

题目分析

一般方法：

        根据对建树的过程的了解。对于当前被处理的单词和当前树：在根结点的子结点中找单词的第一位字母，若存在则进而在该结点的子结点中寻找第二位……如此下去直到单词结束，即不需要在该树中添加结点；或单词的第n位不能被找到，即将单词的第n位及其后的字母依次加入单词查找树中去。

优化处理：

        因为本问题只是问你结点总数，而非建树方案，且有32K文件，所以考虑不通过建树就直接算出结点数。
        为了说明问题的本质，我们给出一个定义：一个单词相对于另一个单词的差：设单词1的长度为L，且与单词2从第N位开始不一致，则说单词1相对于单词2的差为L-N+1，这是描述单词相似程度的量。可见，将一个单词加入单词树的时候，须加入的结点数等于该单词树中已有单词的差的最小值。 
        单词的字典顺序排列后的序列则具有类似的特性，即在一个字典顺序序列中，第m个单词相对于第m-1个单词的差必定是它对于前m-1个单词的差中最小的。于是，得出建树的等效算法： 
        ① 读入文件； 
        ② 对单词列表进行字典顺序排序； 
        ③ 依次计算每个单词对前一单词的差，并把差累加起来。注意：第 一个单词相对于“空”的差为该单词的长度； 
        ④ 累加和再加上1（根结点），输出结果。

#include<iostream>
#include<cstring>
#include<cstdio>
#include<cmath>
#include<algorithm>
#include<sstream>
#include<iomanip>
using namespace std;
int zimucha(string s1,string s2);
string s[10000];
int n=0;
int main()
{
    while(cin>>s[n])
    {
        n++;
    }
    sort(s,s+n);
    int sum=s[0].length();
    for(int i=1;i<n;i++)
    {
        sum+=zimucha(s[i-1],s[i]);
    }
    cout<<sum+1;
    return 0;
}
int zimucha(string s1,string s2)
{
    int l1=s1.length();
    int l2=s2.length();
    int count=0;
    for(int i=0;i<l2;i++)
    {
        if(l1<=i)
        {
            count=l2-l1;
            break;
        }
        if(s1[i]!=s2[i])
        {
            count=l2-i;
            break;
        }
    }
    return count;
}