LeetCode OJ - Minimum Window Substring

本文提供了一种复杂度为O(n)的算法,用于在给定字符串中找到包含指定子串的所有字符的最短子串。通过使用字符计数和滑动窗口技术,该算法有效解决了这一经典问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Given a string S and a string T, find the minimum window in S which will contain all the characters in T in complexity O(n).

For example,
S = "ADOBECODEBANC"
T = "ABC"

Minimum window is "BANC".

Note:
If there is no such window in S that covers all characters in T, return the emtpy string "".

If there are multiple such windows, you are guaranteed that there will always be only one unique minimum window in S.

分析:

1.子问题“若子串和母串看作集合,子串是否属于母串子集”,使用num统计母串中出现子串的个数,int data[256]表来记录子串字符出现的个数。

    首先遍历子串记录,将字符个数记录到data中例如data['x'] = 2。接着使用当前计数表int now[256]到母串中统计,若now[x] < data[x]时num++,若最后num等于子串的长度,那么表示子串属于母串的子集。

int data[256], now[256];
memset(data, 0, sizeof(data));
memset(now, 0, sizeof(now));

for(i = 0; i < T.size(); i++) {
    data[T[i]]++;
}

for(i = 0; i < S.size(); i++) {
    if(num < T.size()) {
        if(now[S[i]] < data[S[i]]) num++;
        now[S[i]]++;
    }
    if(num == T.size()) {
        return true;
    }
}

return false;

2.找到最小的窗口,这里可以使用前后指针j, i。i向前遍历,当j与i之间包含子串时,让j向前收缩,并统计本次的窗口结果。  接着让j往前走一步,进行下一次窗口计算。

class Solution {  
public:  
    string minWindow(string S, string T) {  
        int i, j;
        int data[250],now[250];  
        memset(data,0,sizeof(data));  
        memset(now,0,sizeof(now));  
        
        for(i=0;i<T.size();++i)  
            data[T[i]]++;  
            
        int left,right,min=INT_MAX,num=0;  
        
        for(i=0,j=0; i<S.size(); ++i)   {  
            
            if(num < T.size())  {  
                if(now[S[i]] < data[S[i]]) num++;  
                now[S[i]]++;  
            }  
            if(num == T.size())  {  
                //收缩
                while(j <=i && now[S[j]] > data[S[j]] )  {  
                    --now[S[j]];  
                    ++j;                      
                }  
                if(min > i - j + 1) {
                    left = j,right = i,min = i - j + 1;  
                }
            
                //向前一步走
                if(j < i) {
                    now[S[j]]--;  
                    num--;  
                    ++j;  
                }
            }  
        }  

        if(min != INT_MAX)return S.substr(left,right-left+1);  
        else return "";  
    }  
};  


资源下载链接为: https://pan.quark.cn/s/140386800631 通用大模型文本分类实践的基本原理是,借助大模型自身较强的理解和推理能力,在使用时需在prompt中明确分类任务目标,并详细解释每个类目概念,尤其要突出类目间的差别。 结合in-context learning思想,有效的prompt应包含分类任务介绍及细节、类目概念解释、每个类目对应的例子和待分类文本。但实际应用中,类目和样本较多易导致prompt过长,影响大模型推理效果,因此可先通过向量检索缩小范围,再由大模型做最终决策。 具体方案为:离线时提前配置好每个类目的概念及对应样本;在线时先对给定query进行向量召回,再将召回结果交给大模型决策。 该方法不更新任何模型参数,直接使用开源模型参数。其架构参考GPT-RE并结合相关实践改,加入上下文学习以提高准确度,还使用BGE作为向量模型,K-BERT提取文本关键词,拼接召回的相似例子作为上下文输入大模型。 代码实现上,大模型用Qwen2-7B-Instruct,Embedding采用bge-base-zh-v1.5,向量库选择milvus。分类主函数的作用是在向量库中召回相似案例,拼接prompt后输入大模型。 结果方面,使用ICL时accuracy达0.94,比bert文本分类的0.98低0.04,错误类别6个,处理时添加“家居”类别,影响不大;不使用ICL时accuracy为0.88,错误58项,可能与未修改prompt有关。 优点是无需训练即可有较好结果,例子优质、类目界限清晰时效果更佳,适合围绕通用大模型api打造工具;缺点是上限不高,仅针对一个分类任务部署大模型不划算,推理速度慢,icl的token使用多,用收费api会有额外开销。 后续可优化的点是利用key-bert提取的关键词,因为核心词语有时比语意更重要。 参考资料包括
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值