Day09 字符串part02

本文介绍了KMP算法用于在字符串中查找第一个匹配项,通过构建next数组和前缀表来优化暴力搜索的时间复杂度。同时讨论了前缀和后缀的概念,以及如何在重复子字符串检测中应用KMP算法。

第九天字符串part02

LC28找出字符串中第一个匹配项的下标(未掌握

  1. 暴力算法:时间复杂度O(M*N)
  2. KMP算法
    • 作用:当字符串出现不匹配的情况,可以知道一部分之前已经匹配的文本内容,可以利用这些信息避免重头开始匹配
    • 重点:如何记录已经匹配的文本内容(next数组)
  3. 前缀表:
    • 作用:用来回退的,它记录了模式串与主串(文本串)不匹配的时候,模式串应该从哪里开始重新匹配
    • 物理含义:下标{0}-{i}的字符串中,有多大长度的相同前缀后缀
      • 前缀:不包含最后一个字符的所有以第一个字符开头的连续子串
      • 后缀:不包含第一个字符的所有以最后一个字符结尾的连续子串
    • 真实作用:aabaaf,当判断到f时,与主字符串中的字符不同,因为aabaa有两个相同长度的前缀后缀,因此可以直接跳到b
  4. next数组
    • 前缀表(这样每次回退的时候就是回退到next[j]位置
    • 前缀表减一(这样每次回退的时候就是回退到next[j]+1位置
    • 前缀表右移一位,初始位置为-1
  5. 构造next数组(前缀表减一)
    • 初始化
      • 两个指针i和j,j指向前缀末尾位置,i指向后缀末尾位置
      • j=-1
      • next[0] = j
    • for (int i = 1; i < s.size(); i++) :判断i位置和j+1位置
      • 处理前后缀不同的情况:s[i]!=s[j+1],需要进行回退,j回退到next[j]
        • 原因解释:
          • {0}-{j}的前缀一定等于{i-j-1}-{i-1}的后缀,因为判断到了前缀结尾j和后缀结尾i,长度都为j+1
          • {0}-{next[j]}的前缀一定等于{j-next[j]}-{j}的后缀,因为next[j]的物理含义决定(注意减了1),长度都为next[j]+1
          • 因此有{0}-{next[j]}的前缀一定等于{i-next[j]-1}-{i-1}的后缀,长度都为next[j]+1
        • 回退之后就是判断i和next[j]+1位置
      • 处理前后缀相同的情况:s[i]==s[j+1],j++
      • 最后next[i] = j
  6. 使用next数组进行匹配,双指针i和j,注意j从-1开始
    • s[i] !=t[j + 1] ,j=next[j]
    • s[i] ==t[j + 1],j++
    • j指向了模式串t的末尾,j = =(t.size() - 1) 因为j从t.size() - 2变成t.size() - 1,此时i因为变成i+1,i+1-t.size(),return (i - t.size() + 1)
    • 切记,先判断不等的情况,再判断相等的情况,不然相等了j++了i却没有++,会出现问题
  7. 错误代码
    在这里插入图片描述
  8. 正确代码
    在这里插入图片描述

LC459重复的子字符串(未掌握

  1. 思路:
    • 一个长度为n的字符串M可以由长度为i的子串N组成,那么n一定是i的倍数即n%i==0
    • 对于任意的j属于[i,n),一定有M[j]=M[j-i]
    • 子串必须重复一次,因此i一定要小于等于n/2,只要有一个子串成功重复,就return true
  2. 代码
    在这里插入图片描述
  3. KMP算法思想
    在这里插入图片描述
  4. 代码
    • 最后判断是否存在重复子串的判断条件要加上next[length-1]>=0,因为如果<0则说明最长重复前后缀长度<=0,就说明一定无重复子串
      在这里插入图片描述

LC686重复叠加字符串匹配(KMP的拓展,未掌握

  1. 本质是看将字符串a复制多少次才能够匹配子串b,因此可以先确定复制次数,最少是a.length()/b.length(),最多是a.length()/b.length()+2
    • 使用StringBuild不容易搞错
    • 最后还需要append(a)是为了保持上界字符串形式
      在这里插入图片描述
  2. 如果最后j==b.length()-1,说明包含b子串,就需要判断此时i是否超过了num(下界倍数)*a.length(),超过了就return num+1,反之return num
    在这里插入图片描述
    在这里插入图片描述
<think> 我们正在讨论Python中切割字符串的方法。根据引用内容,我们可以总结出几种主要的方法: 1. 使用字符串内置的split()方法(引用[1][2][4]) 2. 使用正则表达式模块re的split()方法(引用[1][3]) 3. 使用字符串切片(引用[1]) 此外,引用[2]中还提到了字符串的修剪、填充等方法,但我们的重点是分割。 下面我们将详细介绍这些方法: 1. split()方法: - 这是Python字符串内置的方法,用于将一个字符串分割成多个子字符串,并返回一个列表。 - 基本语法:`str.split(sep=None, maxsplit=-1)` - `sep`:分隔符,默认为所有的空字符,包括空格、换行(\n)、制表符(\t)等。如果指定分隔符,则按照该分隔符进行分割。 - `maxsplit`:分割次数,默认为-1,即分割所有。如果指定,则最多分割maxsplit次,剩余部分作为一个整体返回。 - 示例: ```python s = "apple,banana,orange" print(s.split(',')) # 输出: ['apple', 'banana', 'orange'] ``` 2. 使用正则表达式(re.split): - 当需要根据多个字符分割字符串时,可以使用re模块的split方法(引用[3])。 - 语法:`re.split(pattern, string, maxsplit=0, flags=0)` - `pattern`:正则表达式模式,用于指定分隔符。 - `string`:要分割的字符串。 - 示例(使用多个分隔符): ```python import re s = "this_is#a|test" result = re.split('[_#|]', s) print(result) # 输出: ['this', 'is', 'a', 'test'] ``` 3. 字符串切片: - 切片操作可以按照位置切割字符串,但通常用于获取子字符串,而不是基于分隔符分割。不过在特定需求下(如固定位置分割)也可以使用。 - 示例(按位置分割): ```python s = "abcdef" part1 = s[:3] # 前3个字符 part2 = s[3:] # 剩余字符 print(part1) # abc print(part2) # def ``` 另外,引用[4]提到了一些其他方法,但主要也是split和re.split。 因此,总结回答用户问题:Python中切割字符串的常用方法有split()、re.split()和切片操作。其中split()适用于简单分隔符,re.split()适用于复杂情况(如多个分隔符),切片操作则基于索引位置分割。 根据引用[2]和[4],我们还可以补充split()方法的一个变种:rsplit(),它从字符串的末尾开始分割。此外,还有splitlines()方法用于按行分割。 下面我们给出一个更全面的总结: - split(): 从左向右分割,默认以空白字符(空格、换行等)分割。 - rsplit(): 从右向左分割,可以指定分割次数。 - splitlines(): 按行分割,返回各行作为元素的列表。 - 正则表达式re.split(): 支持多个分隔符和复杂的分隔规则。 示例: ```python # rsplit示例 s = "apple,banana,orange,grape" print(s.rsplit(',', 2)) # 输出: ['apple,banana', 'orange', 'grape'],从右边开始分割两次 # splitlines示例 s = "first line\nsecond line\r\nthird line" print(s.splitlines()) # 输出: ['first line', 'second line', 'third line'] ``` 因此,用户可以根据具体需求选择合适的方法。 生成相关问题: 1. split()和rsplit()有什么区别? 2. 如何用正则表达式分割含有多种分隔符的字符串? 3. splitlines()方法的使用场景是什么? 4. 如何在分割字符串时保留分隔符? 5. 如何分割一个包含空格的字符串,但忽略引号内的空格(如命令行参数解析)? </think> ### Python字符串切割方法详解 在Python中,切割字符串主要使用以下方法: #### 1. `split()`方法(单字符分割) ```python text = "apple,banana,orange" result = text.split(',') print(result) # 输出: ['apple', 'banana', 'orange'] ``` - **语法**:`str.split(sep=None, maxsplit=-1)` - `sep`:分隔符(默认按空格分割) - `maxsplit`:最大分割次数(默认全部分割) #### 2. `rsplit()`方法(从右侧分割) ```python text = "one|two|three|four" result = text.rsplit('|', 2) print(result) # 输出: ['one|two', 'three', 'four'] ``` #### 3. 正则表达式 `re.split()`(多字符分割) ```python import re text = "apple#banana;orange|grape" result = re.split('[#;|]', text) print(result) # 输出: ['apple', 'banana', 'orange', 'grape'] ``` - 支持同时使用多个分隔符(如`#`、`;`、`|`) #### 4. `splitlines()`方法(按行分割) ```python text = "First line\nSecond line\r\nThird line" result = text.splitlines() print(result) # 输出: ['First line', 'Second line', 'Third line'] ``` #### 5. 分区方法(分割成三部分) - `partition()`:从左查找分隔符 ```python text = "name=Alice" result = text.partition('=') print(result) # 输出: ('name', '=', 'Alice') ``` - `rpartition()`:从右查找分隔符 #### 6. 切片操作(固定位置分割) ```python text = "2023-12-25" year = text[:4] # '2023' month = text[5:7] # '12' day = text[8:] # '25' ```
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值