精通正则表达式笔记--去除文本首尾的空白字符

本文探讨了四种使用正则表达式去除文本首尾空白字符的方法。通过详细解析每种方法的匹配过程,揭示了它们在实际应用中的有效性和局限性。对于希望精进正则表达式技能的读者,本文提供了深入的理解和实用的指导。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关于去除文本首尾的空白字符,书中提到了四种方法:

# 第一种
s/^\s+//
s/\s+$//
# 第二种
s/\s*(.*?)\s*$/$1/s
# 第三种
s/^\s*((?:.*\S)?)\s*$/$1/s
# 第四种
s/^\s+|\s+$//g

作者推荐第一种, 并认为其它三个都是不正确的。
下面以源字符串 'a' 为例,分析一下这几个正则表达式的匹配过程。

第一种:

    s/^\s+//
  • ^ 成功匹配到行的开头
  • s+ 匹配 a , 结果匹配失败
  • 整个表达式匹配失败
s/\s+$//
  • s+ 匹配 a, 失败
  • s+ 匹配行结尾,失败
  • 整个表达式匹配失败

第二种:

s/\s*(.*?)\s*$/$1/s
  • s, 首先 s 匹配 a,失败, 回溯, s 匹配 a 前边的位置, 成功
  • (.*?) 优先不匹配, 保留一个可回溯状态
  • s, 首先 s 匹配 a,失败, 回溯, s 匹配 a 前边的位置, 成功
  • $, 匹配 a, 失败。
  • 表达式匹配失败
  • 检查有没有可回溯的状态, (.?)可回溯, . 匹配 a, 匹配成功
  • s*,匹配 a 后面的位置
  • $, 匹配到结尾
  • 整个表达式匹配成功

第三种:

s/^\s*((?:.*\S)?)\s*$/$1/s
  • ^, 匹配行开头
  • s*, 匹配a前面的位置
  • ((?:.S)?), . 匹配到 a,由于是贪婪模式,. 会继续向下匹配, 但是后面已经没有内容了,控制权交给 S, 接下来的S也无法匹配, . 可回溯,退还匹配到的 a,S 匹配到 a
  • s*, 匹配到 a 之后的位置
  • $, 匹配到结尾
  • 正个表达式匹配成功

    ((?:.\S)?) 分组中的\S是为了强制 . 匹配完后进行回溯的,?是为保证表达式能够正常匹配空行。没有?的话, \S 就要求至少有一个字符。

第四种:

/^\s+|\s+$//g
  • ^, 匹配到行开头
  • s+,匹配 a, 失败
  • 尝试第二个分支,s+,匹配 a, 失败
  • 整个表达式失败
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值