题目描述
给定一个字符串 SSS,以及多个整数 NNN,对于每个 NNN,找出在 SSS 中出现次数最多的长度为 NNN 的子串(称为 NNN-Gram)。如果有多个子串出现次数相同,则输出其中字典序最小的那个。
重要细节:
- 字符串 SSS 的长度不超过 100010001000。
- SSS 可以包含任何可打印的 ASCII 字符,包括空格和标点符号。
- 在匹配子串时,不区分大小写(例如
'A'和'a'被视为相同)。 - 子串的出现是允许重叠的。例如,在字符串
"bcbcbc"中,子串"cbc"出现了两次。 - 输入包含多个测试用例,每个测试用例先给出字符串 SSS,然后是一个整数 TTT,接着是 TTT 行,每行一个整数 NNN (0<N≤Length(S)0 < N \leq \text{Length}(S)0<N≤Length(S))。
题目分析与解题思路
1. 问题理解与关键点
本题的核心是统计所有指定长度的子串的出现频率,并在频率最高的子串中选出字典序最小的一个。关键在于以下几点:
- 子串定义:NNN-Gram 是原字符串中连续的 NNN 个字符,包括空格和标点。例如,字符串
"ab cd"在 N=3N=3N=3 时,包含子串"ab ","b c"," cd"。 - 大小写不敏感:在统计之前,需要将整个字符串统一转换为小写(或大写),以确保
'A'和'a'被同等对待。 - 重叠出现:题目明确说明子串的出现可以重叠,这意味着我们必须遍历所有可能的起始位置。
- 字典序比较:当多个子串出现次数相同时,需要按照字典序(基于 ASCII 值)选择最小的那个。
2. 算法设计
我们可以采用以下步骤解决每个查询:
- 预处理字符串:将输入字符串 SSS 中的所有字符转换为小写,以便后续不区分大小写进行比较。
- 枚举所有子串:对于给定的 NNN,使用一个循环从 i=0i = 0i=0 到 len(S)−N\text{len}(S) - Nlen(S)−N,提取每个长度为 NNN 的子串 S[i…i+N−1]S[i \dots i+N-1]S[i…i+N−1]。
- 频率统计:使用
std::map<std::string, int>来记录每个子串出现的次数。map的键是子串,值是出现次数。map会自动按照键的字典序进行排序,这在后续寻找答案时非常有用。 - 寻找答案:遍历这个
map,寻找出现次数最多的子串。如果遇到出现次数相同的子串,由于map已经按字典序排列,我们只需要选择第一个遇到的出现次数最多的子串即可(因为后面字典序更大的不会被选中)。
3. 复杂度分析
- 设字符串长度为 LLL(最大为 100010001000),TTT 是查询次数。
- 对于每个查询 NNN,我们需要枚举 O(L)O(L)O(L) 个子串。
- 每个子串的长度为 NNN,插入
map的时间复杂度为 O(NlogM)O(N \log M)O(NlogM),其中 MMM 是不同子串的数量。 - 在最坏情况下,M=O(L)M = O(L)M=O(L),因此每个查询的时间复杂度约为 O(L⋅NlogL)O(L \cdot N \log L)O(L⋅NlogL)。由于 L≤1000L \leq 1000L≤1000,这个复杂度是完全可接受的。
4. 实现细节
- 输入读取:使用
std::getline读取字符串 SSS,因为它可能包含空格。 - 大小写转换:使用
std::tolower函数将每个字符转换为小写。 - 处理多个测试用例:使用
while (getline(cin, S))循环来读取直到文件结束。 - 清除输入缓冲区:在读取整数 TTT 和每个 NNN 后,使用
cin.ignore()来清除换行符,避免影响后续的getline操作。
代码实现
// Frequent Substrings
// UVa ID: 10234
// Verdict: Accepted
// Submission Date: 2025-11-06
// UVa Run Time: 0.100s
//
// 版权所有(C)2025,邱秋。metaphysis # yeah dot net
#include <iostream>
#include <string>
#include <map>
#include <algorithm>
#include <cctype>
using namespace std;
string toLowerString(const string& s) {
string res = s;
for (char& c : res) {
c = tolower(c);
}
return res;
}
int main() {
ios::sync_with_stdio(false);
cin.tie(nullptr);
string S;
while (getline(cin, S)) {
// 转为小写
S = toLowerString(S);
int T;
cin >> T;
cin.ignore(); // 忽略换行
for (int t = 0; t < T; ++t) {
int N;
cin >> N;
cin.ignore();
map<string, int> freq;
int len = S.length();
// 枚举所有长度为 N 的子串
for (int i = 0; i <= len - N; ++i) {
string sub = S.substr(i, N);
freq[sub]++;
}
// 找出现次数最多且字典序最小的
int maxCount = 0;
string result;
for (const auto& p : freq) {
if (p.second > maxCount) {
maxCount = p.second;
result = p.first;
} else if (p.second == maxCount && p.first < result) {
result = p.first;
}
}
cout << maxCount << " " << result << "\n";
}
}
return 0;
}
总结
本题是一个典型的字符串处理问题,考察了对子串枚举、频率统计以及字典序比较的综合应用。通过使用 std::map 来同时完成频率统计和字典序排序,我们可以高效且简洁地解决这个问题。注意处理好输入输出的细节,特别是字符串中包含空格和大小写转换的情况,就能顺利通过此题。

594

被折叠的 条评论
为什么被折叠?



