C++17引入了 string_view 类,适用于需要生成子串的问题,避免了字符串复制操作,但不允许修改子串。基本用法如下:
string str = "hello world";
string_view sv(str);
string_view sub = sv.substr(0, 2);
unordered_map<string_view, int> mp;
除了构造时需要使用string类对象外,取子串的方式和string基本相同,注意使用string_view类的容器对应的类型也要写成string_view。
下面是两道用string_view可以大大加速子串分析的问题:
1.187. 重复的DNA序列
所有 DNA 都由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来查找目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。
示例:
输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出:["AAAAACCCCC", "CCCCCAAAAA"]
最直观的思路,用 unordered_map存储所有长度为10的子串及其出现的次数,最后输出大于1次的即可。使用string_view来加速取子串的过程。
class Solution {
public:
vector<string> findRepeatedDnaSequences(string s) {
unordered_map<string_view, int> mp;
int n = s.size();
if(n < 10) return vector<string>();
string_view sv(s);
for (int i = 0; i < n - 9; ++i)
{
string_view sub = sv.substr(i, 10);
mp[sub]++;
}
vector<string> ans;
for(const auto& it : mp)
{
if(it.second > 1) ans.emplace_back(it.first);
}
return ans;
}
};
2. 面试题 17.13. 恢复空格
哦,不!你不小心把一个长篇文章中的空格、标点都删掉了,并且大写也弄成了小写。像句子"I reset the computer. It still didn’t boot!"已经变成了"iresetthecomputeritstilldidntboot"。在处理标点符号和大小写之前,你得先把它断成词语。当然了,你有一本厚厚的词典dictionary,不过,有些词没在词典里。假设文章用sentence表示,设计一个算法,把文章断开,要求未识别的字符最少,返回未识别的字符数。
注意:本题相对原题稍作改动,只需返回未识别的字符数
示例:
输入:
dictionary = ["looked","just","like","her","brother"]
sentence = "jesslookedjustliketimherbrother"
输出: 7
解释: 断句后为"jess looked just like tim her brother",共7个未识别字符。
提示:0 <= len(sentence) <= 1000
dictionary中总字符数不超过 150000。
你可以认为dictionary和sentence中只包含小写字母。
动态规划。令dp[i]表示s[0...i]中能够匹配字典的最大字符数。那么对于 0 <= j <= i,如果 s[j...i]在字典中,dp[i] = max(dp[i], dp[j-1] + i - j + 1)。
使用string_view加速取子串s[j...i]的过程。
class Solution {
public:
int respace(vector<string>& dictionary, string sentence) {
int n = sentence.size();
if(n == 0) return 0;
unordered_set<string_view> set(dictionary.begin(), dictionary.end());
int dp[1000] = {0};
string_view sv(sentence);
dp[0] = (set.count(sv.substr(0, 1)) ? 1 : 0);
for (int i = 1; i < n; ++i)
{
if(set.count(sv.substr(0, i+1))) dp[i] = i + 1;
else
{
dp[i] = dp[i-1];
for (int j = 1; j <= i; ++j)
{
if(set.count(sv.substr(j, i-j+1))) dp[i] = max(dp[i], dp[j-1] + i-j+1);
}
}
}
return n - dp[n-1];
}
};
除了string_view,在判别string 或 string_view 是否相等时,使用 s.compare() 比使用 == 判别是否相等速度更快。例如以下两题: