正则表达式详解-优快云博客

一. 有关匹配的内容

　　\d可以匹配一个数字，\w可以匹配一个字母或数字；.可以匹配任意字符。

二. 有关匹配的数量

　　要匹配变长的字符，在正则表达式中，用*表示任意个字符（包括0个），用+表示至少一个字符，用?表示0个或1个字符，用{n}表示n个字符，用{n,m}表示n-m个字符：

　　来看一个复杂的例子：

　　\d{3}\s+\d{3,8}。

　　我们来从左到右解读一下：

\d{3}表示匹配3个数字，例如'010'；
\s可以匹配一个空格（也包括Tab等空白符），所以\s+表示至少有一个空格，例如匹配' '，' '等；
\d{3,8}表示3-8个数字，例如'1234567'。

　　综合起来，上面的正则表达式可以匹配以任意个空格隔开的带区号的电话号码。

三、更精确的匹配

要做更精确地匹配，可以用[]表示范围，比如：

[0-9a-zA-Z\_]可以匹配一个数字、字母或者下划线；
[0-9a-zA-Z\_]+可以匹配至少由一个数字、字母或者下划线组成的字符串，比如'a100'，'0_Z'，'Py3000'等等；
[a-zA-Z\_][0-9a-zA-Z\_]*可以匹配由字母或下划线开头，后接任意个由一个数字、字母或者下划线组成的字符串，也就是Python合法的变量；
[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精确地限制了变量的长度是1-20个字符（前面1个字符+后面最多19个字符）。

A|B可以匹配A或B，所以[P|p]ython可以匹配'Python'或者'python'。

^表示行的开头，^\d表示必须以数字开头。

$表示行的结束，\d$表示必须以数字结束。

你可能注意到了，py也可以匹配'python'，但是加上^py$就变成了整行匹配，就只能匹配'py'了。

四、其它

1. re模块

Python提供re模块，包含所有正则表达式的功能。强烈建议使用Python的r前缀，就不用考虑转义的问题了。

先看看如何判断正则表达式是否匹配：

 
      
           >>> 
           import 
           re 
          
 
           >>> re.match(r
           '^\d{3}\-\d{3,8}$'
           , 
           '010-12345'
           ) 
          
 
           >>> <_sre.SRE_Match 
           object
           ; span
           =
           (
           0
           , 
           9
           ), match
           =
           '010-12345'
           > 
          
 
           >>> re.match(r
           '^\d{3}\-\d{3,8}$'
           , 
           '010 12345'
           )>>> 
          

    

match()方法判断是否匹配，如果匹配成功，返回一个Match对象，否则返回None。常见的判断方法就是：

 
           test 
           = 
           '用户输入的字符串' 
          
           if 
           re.match(r
           '正则表达式'
           , test): 
          
           print
           (
           'ok'
           ) 
          
           else
           : 
          
           print
           (
           'failed'
           )

2. 切分字符串

用正则表达式切分字符串比用固定的字符更灵活。如，

以上代码无法识别连续的空格，用正则表达式试试：

 
      
           >>> re.split(r
           '\s+'
           , 
           'a b   c'
           ) 
          
 
           [
           'a'
           , 
           'b'
           , 
           'c'
           ] 
          

    

还如，加入“，”，“；”的干扰，看看效果

 
      
           >>> re.split(r
           '[\s\,]+'
           , 
           'a,b, c  d'
           ) 
          
 
           [
           'a'
           , 
           'b'
           , 
           'c'
           , 
           'd'
           ] 
          

    

>>> re.split(r'[\s\,\;]+', 'a,b;; c  d')
['a', 'b', 'c', 'd']

如果用户输入了一组标签，记得用正则表达式来把不规范的输入转化成正确的数组。：)

3. 分组

除了简单地判断是否匹配之外，正则表达式还有提取子串的强大功能。用()表示的就是要提取的分组（Group）。比如：

^(\d{3})-(\d{3,8})$

分别定义了两个组，可以直接从匹配的字符串中提取出区号和本地号码：

 
      
           >>> m 
           = 
           re.match(r
           '^(\d{3})-(\d{3,8})$'
           , 
           '010-12345'
           ) 
          

           >>> m
          
 
           <_sre.SRE_Match 
           object
           ; span
           =
           (
           0
           , 
           9
           ), match
           =
           '010-12345'
           > 
          
 
           >>> m.group(
           0
           ) 
          

           '010-12345'
          
 
           >>> m.group(
           1
           ) 
          

           '010'
          
 
           >>> m.group(
           2
           ) 
          

           '12345'
          

    

如果正则表达式中定义了组，就可以在Match对象上用group()方法提取出子串来。

注意到group(0)永远是原始字符串，group(1)、group(2)……表示第1、2、……个子串。

4.贪婪匹配

它也就是匹配尽可能多的字符。举例如下，匹配出数字后面的0：

 
           >>> re.match(r
           '^(\d+)(0*)$'
           , 
           '102300'
           ).groups() 
          
           (
           '102300'
           , '')

由于\d+采用贪婪匹配，直接把后面的0全部匹配了，结果0*只能匹配空字符串了。

必须让\d+采用非贪婪匹配（也就是尽可能少匹配），才能把后面的0匹配出来，加个?就可以让\d+采用非贪婪匹配：

 
           >>> re.match(r
           '^(\d+?)(0*)$'
           , 
           '102300'
           ).groups() 
          
           (
           '1023'
           , 
           '00'
           )