UVa 10234 Frequent Substrings

原创于 2025-11-08 09:02:32 发布 · 994 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#算法

字符串同时被 2 个专栏收录

61 篇文章

订阅专栏

数据结构

47 篇文章

订阅专栏

题目描述

给定一个字符串 $S$ ，以及多个整数 $N$ ，对于每个 $N$ ，找出在 $S$ 中出现次数最多的长度为 $N$ 的子串（称为 $N$ -Gram）。如果有多个子串出现次数相同，则输出其中字典序最小的那个。

重要细节：

字符串 $S$ 的长度不超过 $1000$ 。
$S$ 可以包含任何可打印的 ASCII 字符，包括空格和标点符号。
在匹配子串时，不区分大小写（例如 'A' 和 'a' 被视为相同）。
子串的出现是允许重叠的。例如，在字符串 "bcbcbc" 中，子串 "cbc" 出现了两次。
输入包含多个测试用例，每个测试用例先给出字符串 $S$ ，然后是一个整数 $T$ ，接着是 $T$ 行，每行一个整数 $N$ ( $\leq \text{Length}(S)$ )。

题目分析与解题思路

1. 问题理解与关键点

本题的核心是统计所有指定长度的子串的出现频率，并在频率最高的子串中选出字典序最小的一个。关键在于以下几点：

子串定义： $N$ -Gram 是原字符串中连续的 $N$ 个字符，包括空格和标点。例如，字符串 "ab cd" 在 $N = 3$ 时，包含子串 "ab ", "b c", " cd"。
大小写不敏感：在统计之前，需要将整个字符串统一转换为小写（或大写），以确保 'A' 和 'a' 被同等对待。
重叠出现：题目明确说明子串的出现可以重叠，这意味着我们必须遍历所有可能的起始位置。
字典序比较：当多个子串出现次数相同时，需要按照字典序（基于 ASCII 值）选择最小的那个。

2. 算法设计

我们可以采用以下步骤解决每个查询：

预处理字符串：将输入字符串 $S$ 中的所有字符转换为小写，以便后续不区分大小写进行比较。
枚举所有子串：对于给定的 $N$ ，使用一个循环从 $i = 0$ 到 $len(S)−N\text{len}(S) - N$ ，提取每个长度为 $N$ 的子串 $\dots i+N-1]$ 。
频率统计：使用 std::map<std::string, int> 来记录每个子串出现的次数。map 的键是子串，值是出现次数。map 会自动按照键的字典序进行排序，这在后续寻找答案时非常有用。
寻找答案：遍历这个 map，寻找出现次数最多的子串。如果遇到出现次数相同的子串，由于 map 已经按字典序排列，我们只需要选择第一个遇到的出现次数最多的子串即可（因为后面字典序更大的不会被选中）。

3. 复杂度分析

设字符串长度为 $L$ （最大为 $1000$ ）， $T$ 是查询次数。
对于每个查询 $N$ ，我们需要枚举 $O (L)$ 个子串。
每个子串的长度为 $N$ ，插入 map 的时间复杂度为 $\log M)$ ，其中 $M$ 是不同子串的数量。
在最坏情况下， $M = O (L)$ ，因此每个查询的时间复杂度约为 $\cdot N \log L)$ 。由于 $\leq 1000$ ，这个复杂度是完全可接受的。

4. 实现细节

输入读取：使用 std::getline 读取字符串 $S$ ，因为它可能包含空格。
大小写转换：使用 std::tolower 函数将每个字符转换为小写。
处理多个测试用例：使用 while (getline(cin, S)) 循环来读取直到文件结束。
清除输入缓冲区：在读取整数 $T$ 和每个 $N$ 后，使用 cin.ignore() 来清除换行符，避免影响后续的 getline 操作。

代码实现

// Frequent Substrings
// UVa ID: 10234
// Verdict: Accepted
// Submission Date: 2025-11-06
// UVa Run Time: 0.100s
//
// 版权所有（C）2025，邱秋。metaphysis # yeah dot net

#include <iostream>
#include <string>
#include <map>
#include <algorithm>
#include <cctype>

using namespace std;

string toLowerString(const string& s) {
    string res = s;
    for (char& c : res) {
        c = tolower(c);
    }
    return res;
}

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    string S;
    while (getline(cin, S)) {
        // 转为小写
        S = toLowerString(S);
        int T;
        cin >> T;
        cin.ignore(); // 忽略换行

        for (int t = 0; t < T; ++t) {
            int N;
            cin >> N;
            cin.ignore();

            map<string, int> freq;
            int len = S.length();

            // 枚举所有长度为 N 的子串
            for (int i = 0; i <= len - N; ++i) {
                string sub = S.substr(i, N);
                freq[sub]++;
            }

            // 找出现次数最多且字典序最小的
            int maxCount = 0;
            string result;
            for (const auto& p : freq) {
                if (p.second > maxCount) {
                    maxCount = p.second;
                    result = p.first;
                } else if (p.second == maxCount && p.first < result) {
                    result = p.first;
                }
            }

            cout << maxCount << " " << result << "\n";
        }
    }

    return 0;
}