判断字符串能否根据给定的词典划分 Word Break

本文探讨了字符串分割算法,提出四种不同的实现方法,包括深度优先搜索、动态规划等,并针对不同情况进行了优化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题:

Given a non-empty string s and a dictionary wordDict containing a list of non-empty words, determine if s can be segmented into a space-separated sequence of one or more dictionary words. You may assume the dictionary does not contain duplicate words.

For example, given
s = "leetcode",
dict = ["leet", "code"].

Return true because "leetcode" can be segmented as "leet code".

UPDATE (2017/1/4):
The wordDict parameter had been changed to a list of strings (instead of a set of strings). Please reload the code definition to get the latest changes.

解决:

①  dfs,超时,时间复杂度O(n^2)。

class Solution {
    public boolean wordBreak(String s, List<String> wordDict) {
         Set<String> set = new HashSet<>(wordDict);
        return dfs(s,set,0);
    }
    public boolean dfs(String s,Set<String> set,int i){
        if (i == s.length()) {
            return true;
        }
        for (String str : set ) {
            int len = str.length();
            int j = i + len;
            if(j > s.length()) continue;
            if (s.substring(i,j).equals(str)) {
                if (dfs(s,set,j)) {
                    return true;
                }
            }
        }
        return false;
    }
}

② 动态规划。时间复杂度O(string length * dict size)

初始状态dp[0] = true;

dp[i] = true表示 0 到 i - 1可以得字符串可以由dictionary中的字符串组成。

class Solution { //14ms
    public boolean wordBreak(String s, List<String> wordDict) {
        Set<String> set = new HashSet<>(wordDict);
        boolean[] dp = new boolean[s.length() + 1];
        dp[0] = true;
        for (int i = 0;i < s.length() ;i ++ ) {
            if(dp[i] == false) continue;
            for (String str : set) {
                int len = str.length();
                int j = i + len;
                if(j > s.length()) continue;
                if (dp[j]) {
                    continue;
                }
                if (s.substring(i,j).equals(str)) {
                    dp[j] = true;
                }
            }
        }
        return dp[s.length()];
    }
}

③ 在方法②中,如果wordDict太大的话,耗时会增加很多。使用另一种方法,时间复杂度为O(n^2)。n表示s的长度。

class Solution {//17ms
    public boolean wordBreak(String s, List<String> wordDict) {
        Set<String> set = new HashSet<>(wordDict);
        int[] dp = new int[s.length() + 1];
        Arrays.fill(dp,-1);
        dp[0] = 0;
        for (int i = 0;i < s.length() ;i ++ ) {
            if (dp[i] != -1) {
                for (int j = i + 1;j <= s.length() ;j ++ ) {
                    String sub = s.substring(i,j);
                    if (set.contains(sub)) {
                        dp[j] = i;
                    }
                }
            }
        }
        return dp[s.length()] != -1;
    }
}

④ 在discuss中看到的效率比较高的,从最长的词组开始比较

class Solution { //5ms
    public boolean wordBreak(String s, List<String> wordDict) {
       if(s == null || s.length() == 0){
            return true;
        }
        if(wordDict == null || wordDict.size() == 0){
            return false;
        }
        Set<String> set = new HashSet<>(wordDict);
        int len = getMaxLength(wordDict);
        boolean[] dp = new boolean[s.length() + 1];
        dp[0] = true;
        for(int i = 1; i < dp.length;i ++) {
            for(int j = Math.max(i - len, 0); j < i; j ++) {
                if(dp[j] && set.contains(s.substring(j, i))){
                    dp[i] = true;
                    break;
                }

            }
        }
        return dp[dp.length - 1];
    }
    private int getMaxLength(List<String> wordDict) {
        int max = 0;
        for(String s : wordDict) {
            max = Math.max(s.length(), max);
        }
        return max;
    }
}

转载于:https://my.oschina.net/liyurong/blog/1545458

def cutA(sentence, dictA): # sentence:要分词的句子 result = [] sentenceLen = len(sentence) n = 0 maxDictA = max([len(word) for word in dictA]) # 任务:完成正向匹配算法的代码描述,并将结果保存到result变量中 # result变量为分词结果 # ********** Begin *********# # ********** End **********# print(result) # 输出分词结果任务描述 本关任务:根据本关所学有关中文分词的基础知识,采用规则分词法,完成正向最大匹配算法程序的编写并通过所有测试用例。 相关知识 为了完成本关任务,你需要掌握: 中文分词的含义; 规则分词各个算法的思想。 中文分词简介 在语言理解中,词是最小的能够独立活动的有意义的语言成分。将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及主题分析,以至自然语言理解,最终达到智能计算的最高境界。因此,每个 NLP 工作者都应掌握分词技术。 在汉语中,词以字为基本单位的,但是一篇文章的语义表达却仍然是以词来划分的。因此,在处理中文文本时,需要进行分词处理,将句子转化为词的表示。这个切词处理过程就是中文分词,它通过计算机自动识别出句子的词,在词间加入边界标记符,分隔出各个词汇。整个过程看似简单,然而实践起来却很复杂,最主要的困难就在于分词歧义。 现有的分词算法可分为三大类: 基于规则的分词方法; 基于统计的分词方法; 基于理解的分词方法。 本实训主要介绍的是基于字符串匹配的分词方法,即规则分词法。 什么是规则分词 基于规则的分词是一种机械分词方法,主要是通过维护词典,在切分语句时,将语句的每个字符串词表中的词进行逐一匹配,找到则切分,否则不予切分。 按照匹配切分的方式,主要有正向最大匹配法、逆向最大匹配法以及双向最大匹配法三种方法,接下来我们将依次介绍这三种算法。 测试说明 平台将使用测试集运行你编写的程序代码,若全部的运行结果正确,则通关。 测试输入
最新发布
04-11
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值