C++17 string_view 加速子串问题

本文介绍了C++17引入的string_view类如何提高处理子串问题的效率,通过示例说明其在解决DNA重复序列和恢复文章空格的题目中的应用,展示了使用string_view加速子串比较和减少不必要的复制操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

C++17引入了 string_view 类,适用于需要生成子串的问题,避免了字符串复制操作,但不允许修改子串。基本用法如下:

string str = "hello world";
string_view sv(str);
string_view sub = sv.substr(0, 2);
unordered_map<string_view, int> mp;

除了构造时需要使用string类对象外,取子串的方式和string基本相同,注意使用string_view类的容器对应的类型也要写成string_view。

下面是两道用string_view可以大大加速子串分析的问题:

1.187. 重复的DNA序列

所有 DNA 都由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。

编写一个函数来查找目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。

 

示例:

输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出:["AAAAACCCCC", "CCCCCAAAAA"]

最直观的思路,用 unordered_map存储所有长度为10的子串及其出现的次数,最后输出大于1次的即可。使用string_view来加速取子串的过程。

class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        unordered_map<string_view, int> mp;
        int n = s.size();
        if(n < 10) return vector<string>();
        string_view sv(s);
        for (int i = 0; i < n - 9; ++i)
        {
            string_view sub = sv.substr(i, 10);
            mp[sub]++;
        }
        vector<string> ans;
        for(const auto& it : mp)
        {
            if(it.second > 1) ans.emplace_back(it.first);
        }
        return ans;
    }
};

 2. 面试题 17.13. 恢复空格

哦,不!你不小心把一个长篇文章中的空格、标点都删掉了,并且大写也弄成了小写。像句子"I reset the computer. It still didn’t boot!"已经变成了"iresetthecomputeritstilldidntboot"。在处理标点符号和大小写之前,你得先把它断成词语。当然了,你有一本厚厚的词典dictionary,不过,有些词没在词典里。假设文章用sentence表示,设计一个算法,把文章断开,要求未识别的字符最少,返回未识别的字符数。

注意:本题相对原题稍作改动,只需返回未识别的字符数

 

示例:

输入:
dictionary = ["looked","just","like","her","brother"]
sentence = "jesslookedjustliketimherbrother"
输出: 7
解释: 断句后为"jess looked just like tim her brother",共7个未识别字符。
提示:

0 <= len(sentence) <= 1000
dictionary中总字符数不超过 150000。
你可以认为dictionary和sentence中只包含小写字母。

 动态规划。令dp[i]表示s[0...i]中能够匹配字典的最大字符数。那么对于 0 <= j <= i,如果 s[j...i]在字典中,dp[i] = max(dp[i], dp[j-1] + i - j + 1)。

使用string_view加速取子串s[j...i]的过程。

class Solution {
public:
    int respace(vector<string>& dictionary, string sentence) {
        int n = sentence.size();
        if(n == 0) return 0;
        unordered_set<string_view> set(dictionary.begin(), dictionary.end());
        int dp[1000] = {0};
        string_view sv(sentence);
        dp[0] = (set.count(sv.substr(0, 1)) ? 1 : 0);
        for (int i = 1; i < n; ++i)
        {
            if(set.count(sv.substr(0, i+1))) dp[i] = i + 1;
            else
            {
                dp[i] = dp[i-1];
                for (int j = 1; j <= i; ++j)
                {
                    if(set.count(sv.substr(j, i-j+1))) dp[i] = max(dp[i], dp[j-1] + i-j+1);
                }
            }
        }
        return n - dp[n-1];
    }
};

除了string_view,在判别string 或 string_view 是否相等时,使用 s.compare() 比使用 == 判别是否相等速度更快。例如以下两题:

214. 最短回文串

1316. 不同的循环子字符串

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值