精通正则表达式笔记--去除文本首尾的空白字符-优快云博客

本文探讨了四种使用正则表达式去除文本首尾空白字符的方法。通过详细解析每种方法的匹配过程，揭示了它们在实际应用中的有效性和局限性。对于希望精进正则表达式技能的读者，本文提供了深入的理解和实用的指导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关于去除文本首尾的空白字符，书中提到了四种方法：

# 第一种
s/^\s+//
s/\s+$//

# 第二种
s/\s*(.*?)\s*$/$1/s

# 第三种
s/^\s*((?:.*\S)?)\s*$/$1/s

# 第四种
s/^\s+|\s+$//g

作者推荐第一种，并认为其它三个都是不正确的。
下面以源字符串 'a' 为例,分析一下这几个正则表达式的匹配过程。

第一种：

    s/^\s+//

s/\s+$//

第二种：

s/\s*(.*?)\s*$/$1/s

第三种：

s/^\s*((?:.*\S)?)\s*$/$1/s

^, 匹配行开头
s*, 匹配a前面的位置
((?:.S)?)， . 匹配到 a，由于是贪婪模式，. 会继续向下匹配，但是后面已经没有内容了，控制权交给 S, 接下来的S也无法匹配， . 可回溯，退还匹配到的 a，S 匹配到 a
s*，匹配到 a 之后的位置
$, 匹配到结尾
正个表达式匹配成功

((?:.\S)?) 分组中的\S是为了强制 . 匹配完后进行回溯的，？是为保证表达式能够正常匹配空行。没有？的话， \S 就要求至少有一个字符。

第四种：

/^\s+|\s+$//g