2.5 正则表达式
Regular Expressions
程
序员对很多Ruby
内建的类型是熟悉的,大多数语言都有字符串、整数、浮点和数组等等类型。但是正则表达式的内建支持通常只限于脚本语言如
Ruby
,Perl和awk等。这是一个耻辱:尽管正则表达式很神秘,但它是一个强大的文本处理工具。通过内建而不是通过程序库接口来支持它,有很大的不
同。
有很多书通篇都是介绍正则表达式的(例如《精通正则表达式》Mastering Regular Expressions
[Fri02]),因此我们不试图在这有限的篇幅里涵盖所有方面。相反,我们只会看看一些实用的正则表达式的例子。从第68页开始我们会对正则表达式有一
个全面的介绍。
正则表达式只是一种指定字符模式的方法,这个字符模式会在字符串中进行匹配。在Ruby
中,通常在斜线之间(/pattern/)编写模式(pattern)来创建正则表达式。同时,Ruby
就是Ruby
,正则表达式是对象并且可以当作对象来操作。
比如,可以使用如下的正则表达式来编写模式,它会匹配包含Perl或Python的字符串。
/Perl|Python/
前面那个斜线界定了这个模式,模式由要匹配的两个子字符串组成,它们被管道符(|)分开。管道符意味着“要么右边的字符串,要么左边的字符串”。在这个例子中,它们分别是Perl或Python。就像在算术表达式中的那样,可以在模式中使用括号,因此可以把模式写成
/P(erl|ython)/
也可以在模式中指定重复(repetition)。/ab+c/匹配一个含有a,后面跟着一个或多个b,其后是c的字符串。把模式中的加号改成星号,/ab*c/创建了一个匹配含有a,零个或多个b和然后是c的正则表达式。
也可以在模式中匹配一组或多组字符。一些常见的例子是字符类(character
classes)如/s,它匹配空白字符(空格符、制表符、回车换行符等等);/d匹配任何数字;还有/w,它匹配会出现在一个词内的任何字符。一个点
(.)匹配几乎任意字符。第72页有一个这些字符类的表。
可以把它们用在一起来产生一些有用的正则表达式。
//d/d:/d/d:/d/d/
# 时间如 12:34:56
/Perl.*Python/
# Perl, 零个或多个别的字符,然后是Python
/Perl
Python/ # Perl, 一个空格和Python
/Perl
*Python/ # Perl, 零个或多个空格, 和Python
/Perl
+Python/ # Perl, 一个或多个空格, 和Python
/Perl/s+Python/
# Perl, 空格字符, 然后是Python
/Ruby
(Perl|Python)/
# Ruby
, 一个空格, 然后是Perl 或者Python
一旦创建了模式,不去用它总不好意思。=~匹配操作符可以用正则表达式来匹配字符串。如果在字符串中发现了模式,=~返回模式的开始位置,否则它返回
nil。这意味着可以在if和while语句中把正则表达式当作条件使用。比如,如果字符串包含了Perl或Python,下面的代码输出一条消息。
if line =~
/Perl|Python/
puts "Scripting language mentioned: #{line}"
end
正则表达式匹配到的字符串部分,可以使用Ruby
的其中一种替换方法,替换为其他文本。
line.sub(/Perl/, 'Ruby
') # 用'Ruby
'替换第一个'Perl'
line.gsub(/Python/, 'Ruby
') # 用'Ruby
'替换所有的'Python'
使用下面语句可以用Ruby
替换出现Perl和Python的每个地方。
line.gsub(/Perl|Python/,
'Ruby
')