re模块是python中内置的用来支持正则表达式的模块
import re
match( )函数 1.正则表达式 2.要进行查找的大字符串
如果找到结果,返回结果对象 ,没找到返回None
要查找的子串必须位于大字符串中的开头位置才可以匹配成功,如果不在匹配失败,返回None
# 1.准备正则
pattern = re.compile('world')
# 2.使用正则表达式,从大字符串中搜索符合正则的字符串
# match() 1.正则表达式 2.要进行查找的大字符串
# match() 如果找到结果,返回结果对象 ,没找到返回None
# match() 要查找的子串必须位于大字符串中的开头位置才可以匹配成功,如果不在匹配失败,返回None
res = re.match(pattern,string)
if res:
# group() 用来获取分组信息,分组信息在compile()正则表达式中设置
print(res.group())
else:
print('没有匹配到数据')
search( )函数 1.正则表达式 2.要进行查找的大字符串
如果找到结果,返回结果对象 ,没找到返回None
要查找的子串可以位于大字符串中的任意位置,如果不在匹配失败,返回None
res = re.search(pattern,string)
if res:
print(res.group())
string = 'acbahgsbaorjsb'
string2 = 'abcccbccbdebf'
# .匹配任意字符 *匹配前一个字符0次或无限次
# 默认.*是贪婪模式 尽可能多的匹配数据
pattern = re.compile('a.*b')
res = re.search(pattern,string2)
if res:
print(res.group())
else:
print('没有匹配到数据')
# 一般使用的都是非贪婪模式,尽可能少的去做数据的匹配
# .*? 非贪婪模式
pattern = re.compile('a.*?b')
res = re.search(pattern,string2)
if res:
print(res.group())
else:
print('没有匹配到数据')
# .+? +表示匹配前一个字符1次或无限次 .+?非贪婪模式
pattern = re.compile('a.+?b')
res = re.search(pattern,string2)
if res:
print(res.group())
else:
print('没有匹配到数据')
# | 表示或者,两边的正则符合一个即可
pattern = re.compile('a.*?b|c.*?b')
res = re.search(pattern,string2)
if res:
print(res.group())
else:
print('没有匹配到数据')
findall( )函数 最终返回一个列表,列表中是符合正则条件的所有结果
string4 = '''<ul><li><a href='/html/tv/hytv/110680.html' title="2017年大陆国产剧《凤囚凰》连载至28">2017年大陆国产剧《凤囚凰》连载至28</a><span><font color=#FF0000>03-05</font></span></li><li><a href='/html/tv/hytv/110723.html' title="2017年香港港台剧《无间道2018(粤语)》连载至16">2017年香港港台剧《无间道2018(粤语)》连载至16</a><span><font color=#FF0000>03-05</font></span></li><li><a href='/html/tv/hytv/110821.html' title="2017年香港港台剧《波士早晨(国语)》连载至15">2017年香港港台剧《波士早晨(国语)》连载至15</a><span><font color=#FF0000>03-05</font></span></li><li><a href='/html/tv/hytv/110825.html' title="2017年香港港台剧《波士早晨(粤语)》连载至43">2017年香港港台剧《波士早晨(粤语)》连载至43</a><span><font color=#FF0000>03-05</font></span></li><li><a href='/html/tv/hytv/110857.html' title="2017年大陆国产剧《我的父亲我的兵》连载至22">2017年大陆国产剧《我的父亲我的兵》连载至22</a><span><font color=#FF0000>03-05</font></span></li><li><a href='/html/tv/hytv/110863.html' title="2017年香港港台剧《三个女人一个因(粤语)》连载至5">2017年香港港台剧《三个女人一个因(粤语)》连载至5</a><span><font color=#FF0000>03-05</font></span></li><li><a href='/html/tv/hytv/110891.html' title="2017年大陆国产剧《人生若如初相见》连载至8">2017年大陆国产剧《人生若如初相见》连载至8</a><span><font color=#FF0000>03-04</font></span></li><li><a href='/html/tv/hytv/110896.html' title="2017年大陆国产剧《利刃出击》连载至7">2017年大陆国产剧《利刃出击》连载至7</a><span><font color=#FF0000>03-04</font></span></li><li><a href='/html/tv/hytv/110897.html' title="2017年大陆国产剧《美好生活》连载至8">2017年大陆国产剧《美好生活》连载至8</a><span><font color=#FF0000>03-04</font></span></li><li><a href='/html/tv/hytv/110895.html' title="2017年大陆国产剧《烈火如歌》连载至6">2017年大陆国产剧《烈火如歌》连载至6</a><span><font color=#FF0000>03-04</font></span></li><li><a href='/html/tv/hytv/110790.html' title="2017年大陆国产剧《谈判官》连载至43">2017年大陆国产剧《谈判官》连载至43</a><span><font color=#FF0000>03-04</font></span></li><li><a href='/html/tv/hytv/109048.html' title="2017年香港港台剧《爱回家之开心速递》连载至268">2017年香港港台剧《爱回家之开心速递》连载至268</a><span><font color=#FF0000>03-04</font></span></li><li><a href='/html/tv/hytv/110820.html' title="2017年大陆国产剧《柜中美人》连载至29">2017年大陆国产剧《柜中美人》连载至29</a><span><font color=#FF0000>03-04</font></span></li><li><a href='/html/tv/hytv/110763.html' title="2017年大陆国产剧《东山晴后雪》连载至28">2017年大陆国产剧《东山晴后雪》连载至28</a><span><font color=#FF0000>03-02</font></span></li><li><a href='/html/tv/hytv/110696.html' title="2017年大陆国产剧《警犬来啦》连载至47">2017年大陆国产剧《警犬来啦》连载至47</a><span><font color=#FF0000>03-01</font></span></li></ul>'''
# 正则中包含了分组信息
pattern = re.compile('''<a href='(.*?)' title="(.*?)"''')
# 返回的数据是一个列表嵌套元组,元组中放的就是分组数据
res = re.findall(pattern,string4)
for r in res:
print('链接:{} 名称:{}'.format(r[0],r[1]))
split( )函数 1.正则 2.字符串 3.最大分割次数
根据正则将字符串进行分割,返回的是存放分割后字符串的列表
string = 'hell8oworldhe8llo,h4e,hell,h6ool'
# split() 根据正则将字符串进行分割,返回的是存放分割后字符串的列表
pattern = re.compile('\d+')
# 1.正则 2.字符串 3.最大分割次数
res = re.split(pattern,string,1)
print(res)
sub( )函数 1.正则 2.替换后的字符串 3.大字符串 4.替换次数
用于替换目标字符串中符合正则的字符,默认替换所有
string = 'hell8oworldhe8llo,h4e,hell,h6ool'
# sub()函数 用于替换目标字符串中符合正则的字符,默认替换所有
pattern = re.compile('\d+')
# 1.正则 2.替换后的字符串 3.大字符串 4.替换次数
res = re.sub(pattern,'+',string,2)
print(res)