UVa 10234 Frequent Substrings

题目描述

给定一个字符串 SSS,以及多个整数 NNN,对于每个 NNN,找出在 SSS 中出现次数最多的长度为 NNN 的子串(称为 NNN-Gram)。如果有多个子串出现次数相同,则输出其中字典序最小的那个。

重要细节:

  • 字符串 SSS 的长度不超过 100010001000
  • SSS 可以包含任何可打印的 ASCII 字符,包括空格和标点符号。
  • 在匹配子串时,不区分大小写(例如 'A''a' 被视为相同)。
  • 子串的出现是允许重叠的。例如,在字符串 "bcbcbc" 中,子串 "cbc" 出现了两次。
  • 输入包含多个测试用例,每个测试用例先给出字符串 SSS,然后是一个整数 TTT,接着是 TTT 行,每行一个整数 NNN (0<N≤Length(S)0 < N \leq \text{Length}(S)0<NLength(S))。

题目分析与解题思路

1. 问题理解与关键点

本题的核心是统计所有指定长度的子串的出现频率,并在频率最高的子串中选出字典序最小的一个。关键在于以下几点:

  • 子串定义NNN-Gram 是原字符串中连续NNN 个字符,包括空格和标点。例如,字符串 "ab cd"N=3N=3N=3 时,包含子串 "ab ", "b c", " cd"
  • 大小写不敏感:在统计之前,需要将整个字符串统一转换为小写(或大写),以确保 'A''a' 被同等对待。
  • 重叠出现:题目明确说明子串的出现可以重叠,这意味着我们必须遍历所有可能的起始位置。
  • 字典序比较:当多个子串出现次数相同时,需要按照字典序(基于 ASCII 值)选择最小的那个。

2. 算法设计

我们可以采用以下步骤解决每个查询:

  1. 预处理字符串:将输入字符串 SSS 中的所有字符转换为小写,以便后续不区分大小写进行比较。
  2. 枚举所有子串:对于给定的 NNN,使用一个循环从 i=0i = 0i=0len(S)−N\text{len}(S) - Nlen(S)N,提取每个长度为 NNN 的子串 S[i…i+N−1]S[i \dots i+N-1]S[ii+N1]
  3. 频率统计:使用 std::map<std::string, int> 来记录每个子串出现的次数。map 的键是子串,值是出现次数。map 会自动按照键的字典序进行排序,这在后续寻找答案时非常有用。
  4. 寻找答案:遍历这个 map,寻找出现次数最多的子串。如果遇到出现次数相同的子串,由于 map 已经按字典序排列,我们只需要选择第一个遇到的出现次数最多的子串即可(因为后面字典序更大的不会被选中)。

3. 复杂度分析

  • 设字符串长度为 LLL(最大为 100010001000),TTT 是查询次数。
  • 对于每个查询 NNN,我们需要枚举 O(L)O(L)O(L) 个子串。
  • 每个子串的长度为 NNN,插入 map 的时间复杂度为 O(Nlog⁡M)O(N \log M)O(NlogM),其中 MMM 是不同子串的数量。
  • 在最坏情况下,M=O(L)M = O(L)M=O(L),因此每个查询的时间复杂度约为 O(L⋅Nlog⁡L)O(L \cdot N \log L)O(LNlogL)。由于 L≤1000L \leq 1000L1000,这个复杂度是完全可接受的。

4. 实现细节

  • 输入读取:使用 std::getline 读取字符串 SSS,因为它可能包含空格。
  • 大小写转换:使用 std::tolower 函数将每个字符转换为小写。
  • 处理多个测试用例:使用 while (getline(cin, S)) 循环来读取直到文件结束。
  • 清除输入缓冲区:在读取整数 TTT 和每个 NNN 后,使用 cin.ignore() 来清除换行符,避免影响后续的 getline 操作。

代码实现

// Frequent Substrings
// UVa ID: 10234
// Verdict: Accepted
// Submission Date: 2025-11-06
// UVa Run Time: 0.100s
//
// 版权所有(C)2025,邱秋。metaphysis # yeah dot net

#include <iostream>
#include <string>
#include <map>
#include <algorithm>
#include <cctype>

using namespace std;

string toLowerString(const string& s) {
    string res = s;
    for (char& c : res) {
        c = tolower(c);
    }
    return res;
}

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    string S;
    while (getline(cin, S)) {
        // 转为小写
        S = toLowerString(S);
        int T;
        cin >> T;
        cin.ignore(); // 忽略换行

        for (int t = 0; t < T; ++t) {
            int N;
            cin >> N;
            cin.ignore();

            map<string, int> freq;
            int len = S.length();

            // 枚举所有长度为 N 的子串
            for (int i = 0; i <= len - N; ++i) {
                string sub = S.substr(i, N);
                freq[sub]++;
            }

            // 找出现次数最多且字典序最小的
            int maxCount = 0;
            string result;
            for (const auto& p : freq) {
                if (p.second > maxCount) {
                    maxCount = p.second;
                    result = p.first;
                } else if (p.second == maxCount && p.first < result) {
                    result = p.first;
                }
            }

            cout << maxCount << " " << result << "\n";
        }
    }

    return 0;
}

总结

本题是一个典型的字符串处理问题,考察了对子串枚举、频率统计以及字典序比较的综合应用。通过使用 std::map 来同时完成频率统计和字典序排序,我们可以高效且简洁地解决这个问题。注意处理好输入输出的细节,特别是字符串中包含空格和大小写转换的情况,就能顺利通过此题。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值