re.sub在替换替换字符串中可以使用组号,在替换内容中以“\n“形式出现的转移序列都会被模式中与组n匹配的字符替换掉。
对于模式“000-(2017)-(11)-(06)“
组0 : 000-2017-11-06
组1 : 2017
组2 : 11
组3 : 06
>>> example = "(\d{4})-(\d{2})-(\d{2})"
>>> ex=re.compile(example)
>>> text = "000-2017-11-06"
1、保留年,替换月份和日期
#'\\1-99'相当于'2017-99'
>>> ex.sub('\\1-99',text)
'000-2017-99'
相当于用“2017-99替换2017-11-06“
2、保留年、月份,替换日期
>>> ex.sub('\\1-\\2-99',text)
'000-2017-11-99'
‘\1-\2-99’相当于’2017-11-99’
2、保留年、月份、日期
>>> ex.sub('\\1-\\2-\\3',text)
'000-2017-11-06'
不仅在替换内容中适用,在正则表达式中同样适用
>>> re.sub('([ab])\\1','x','abcdebbcde')
'abcdexcde'
对于正则表达式 ‘([ab])\1’
组1 : [ab]
解释:
对于正则表达式“([ab])\1”,捕获组中的子表达式“[ab]”虽然可以匹配“a”或者“b”,但是捕获组一旦匹配成功,反向引用的内容也就确定了。如果捕获组匹配到“a”,那么反向引用也就只能匹配“a”,同理,如果捕获组匹配到的是“b”,那么反向引用也就只能匹配“b”。由于后面反向引用“\1”的限制,要求必须是两个相同的字符,在这里也就是“aa”或者“bb”才能匹配成功。
所以 ‘([ab])\1’ 相当于’ (aa|bb)’
>>> re.sub('(aa|bb)','x','abcdebbcde')
'abcdexcde'