UVa-10391 Compound Words

本文探讨了使用基本C语言和STL(标准模板库)解决复合词问题的方法。通过对比不同算法的效率,展示了如何优化代码以提高性能。详细介绍了两种方法的实现过程和性能对比,旨在提升读者对算法优化的理解。
UVa-10391 Compound Words


分析:这个题起初我是用c语言里的基础做的,也就是说,没用 STL,便一跪再跪,超时再超时,但我感觉我的做法是
完全没错的。复合词这个题便是每种情况都遍历一下试试,看看有没有可能有两个词能组成它便可。难点就在于怎么拆分,之后再
判断他是否能由两个词组成。
先献上我超时多次,报到我想狗带的代码

#include <cstdio>
#include <cstring>
char word[120005][50];
char s1[50],s2[50];
int n;
void jie(int i,int j)
{
    int k;
    for (k=0;k<=j;k++)
        s1[k]=word[i][k];
    s1[k]='\0';
}
/*void wei(int i,int j)
{
    int k,t=0;
    for (k=j+1;k<strlen(word[i]);k++)
        s2[t++]=word[i][k];
    s2[t]='\0';
}*/
int search(char *a)
{
    for (int i=0;i<n;i++)
        if (strcmp(word[i],a)==0) return 1;
    return 0;
}
int main()
{
    char ch[25];
    n=0;
    int f=0;
    while (scanf("%s",ch)==1&&ch[0]!='0')
    {
        strcpy(word[n],ch);
        n++;
    }
    for (int i=0;i<n;i++)
    {
        if (strlen(word[i])>1)
        {
            for (int j=0;j<strlen(word[i])-1;j++)
            {
                jie(i,j);
                char *p=word[i]+j+1;//
                //wei(i,j);
                strcpy(s2,p);
                if (search(s2)&&search(s1)) printf("%s\n",word[i]);
            }
        }
    }
    return 0;
}
用两个函数分别拆分每个词超时是必然,因为效率实在是太低,第二次我稍微优化了一下,便是用指针存后面的部分
,也许可能会稍微提高,但是还是超时了,这几个字符串函数的效率还是太低啊。

下面是STL做的代码,成功AC
核心理念:设定一个string类型的集合,使用STL函数的那几个函数,效率真是提高了无数倍,
substr(a,b)注意b为截的元素的个数,亦或说长度。


#include <iostream>
#include <set>
#include <string>
using namespace std;
int main()
{
    set<string> s;
    string tmp;
    while (cin>>tmp) s.insert(tmp);
    set<string>::iterator it;
    for (it=s.begin();it!=s.end();it++)
    {
        tmp=*it;
        for (int i=1;i<tmp.length();i++)
        {
            if (s.find(tmp.substr(0,i))!=s.end()&&s.find(tmp.substr(i,tmp.length()-i))!= s.end())
            {
                cout<<tmp<<endl;
                break;
            }
        }
    }
    return 0;
}


一、基础信息 数据集名称:Bottle Fin实例分割数据集 图片数量: 训练集:4418张图片 验证集:1104张图片 总计:5522张图片 分类类别: - 类别0: 数字0 - 类别1: 数字1 - 类别2: 数字2 - 类别3: 数字3 - 类别4: 数字4 - 类别5: 数字5 - 类别6: Bottle Fin 标注格式:YOLO格式,包含多边形坐标,适用于实例分割任务。 数据格式:图片格式常见如JPEG或PNG,具体未指定。 二、适用场景 实例分割AI模型开发:数据集支持实例分割任务,帮助构建能够精确识别和分割图像中多个对象的AI模型,适用于对象检测和分割应用。 工业自动化与质量控制:可能应用于制造、物流或零售领域,用于自动化检测和分类物体,提升生产效率。 计算机视觉研究:支持实例分割算法的学术研究,促进目标检测和分割技术的创新。 教育与实践培训:可用于高校或培训机构的计算机视觉课程,作为实例分割任务的实践资源,帮助学生理解多类别分割。 三、数据集优势 多类别设计:包含7个不同类别,涵盖数字和Bottle Fin对象,增强模型对多样对象的识别和分割能力。 高质量标注:标注采用YOLO格式的多边形坐标,确保分割边界的精确性,提升模型训练效果。 数据规模适中:拥有超过5500张图片,提供充足的样本用于模型训练和验证,支持稳健的AI开发。 即插即用兼容性:标注格式直接兼容主流深度学习框架(如YOLO),便于快速集成到各种实例分割项目中。
这是一个经典的 **字符串匹配问题**:找出字典中所有可以表示为**恰好两个其他单词拼接而成的复合词(two-word compound words)**。 --- ## ✅ 问题解析 - 给定一个按字母顺序排列的单词列表(全部小写,最多 120,000 个) - 要求输出所有满足以下条件的单词: - 它是字典中的某个单词 - 它能被**拆成两个非空子串 `s = prefix + suffix`** - 并且 `prefix` 和 `suffix` 都**独立存在于字典中** - 输出这些复合词,按字典序排序(输入已排序,但结果仍需确保) > 注意:构成复合词的两个部分必须是字典中存在的**完整单词** --- ## ✅ 解法思路 ### 🔍 方法:哈希表 + 枚举分割点 1. 将所有单词存入一个高效的查找结构(如 `unordered_set`)用于 $ O(1) $ 查询 2. 对每个单词,尝试将其从不同位置切分为前缀和后缀(至少长度为1) 3. 检查是否 `prefix` 存在于字典 且 `suffix` 存在于字典 4. 如果是,则该单词是一个复合词,加入结果集合 5. 最后将结果排序并输出(虽然输入有序,但复合词不一定按序生成) ✅ 时间复杂度优化关键: - 单词平均不长(英文单词通常几十字符),所以枚举切分点很快 - 使用哈希集合实现 $ O(1) $ 查找 --- ## ✅ C++ 实现代码 ```cpp #include <iostream> #include <vector> #include <unordered_set> #include <set> #include <string> #include <algorithm> using namespace std; int main() { vector<string> words; unordered_set<string> wordSet; string line; // 读取输入,构建向量和哈希集合 while (getline(cin, line)) { if (line.empty()) break; // 输入可能以空行结束(视平台而定) words.push_back(line); wordSet.insert(line); } // 使用 set 自动去重并排序 set<string> compounds; // 遍历每个单词,判断是否为两词复合词 for (const string& word : words) { int len = word.length(); // 尝试每一种分割方式:i 是前缀长度 [1, len-1] for (int i = 1; i < len; ++i) { string prefix = word.substr(0, i); string suffix = word.substr(i); // 检查 prefix 和 suffix 是否都在字典中 if (wordSet.find(prefix) != wordSet.end() && wordSet.find(suffix) != wordSet.end()) { // 符合条件:是复合词 compounds.insert(word); break; // 找到一种拆法即可,无需继续 } } } // 输出结果(set 已经排好序) for (const string& comp : compounds) { cout << comp << endl; } return 0; } ``` --- ## ✅ 示例验证 输入: ``` a alien born less lien never nevertheless new newborn the zebra ``` 我们逐个检查哪些是复合词: | 单词 | 拆分尝试 | 是否存在两个部分 | |------|----------|----------------| | `alien` | `'a' + 'lien'` → `'a'`✅, `'lien'`✅ | ✅ 加入 | | `newborn` | `'new' + 'born'` → `'new'`✅, `'born'`✅ | ✅ 加入 | | `nevertheless` | 可拆成 `'never'+'theless'` → `'theless'`❌;其它拆法都不行?但注意 `'never'` 和 `'the'` 存在,但 `'theless'` 不等于 `'less'`<br>→ 实际上不能由两个存在的单词组成 → ❌ | | 其它单词 | 如 `a`, `new`, `born` 等太短或无法拆出两个有效词 | ❌ | ⚠️ 注意:`alien` 是 `'a' + 'lien'`,不是 `'ali'+'en'`,只有前者成立! 所以输出: ``` alien newborn ``` ✔️ 匹配样例输出! --- ## ✅ 复杂度分析 - 设单词总数为 $ N \leq 120000 $ - 平均单词长度为 $ L $(比如 ≤ 50) - 每个单词最多做 $ L-1 $ 次分割尝试,每次 substring 和 hash 查询约 $ O(L) $ - 总时间复杂度:$ O(N \cdot L^2) $,实际运行很快(因为 L 很小) - 空间复杂度:$ O(N \cdot L) $ 存储字符串和哈希表 对于现代机器来说完全可行。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值