Python 正则表达式

正则表达式:

单个字符匹配

 

 

等价关系:

\d == [0-9]

\D == [^0-9]

\w == [a-zA-Z0-9_]

表示数量

 

 

 

表示边界

匹配分组

需求:匹配出0-100之间的数字

 

(ab) 将括号中字符作为一个分组

\num 引用分组num匹配到的字符串

 \2  \1 分别表示引用第2个分组、第1个分组的值

Group分组结果如下,匹配到的第一个(.+)作为第一个分组,依次类推

匹配邮箱,

 

(?P<name>) 分组起别名

(?P=name)引用别名为name分组匹配到的字符串

In [46]: re.match(r'<(.+)><(.+)>(.+)</(.+)><(.+)>','<html><h1>hello</h1></html>')
Out[46]: <_sre.SRE_Match object; span=(0, 27), match='<html><h1>hello</h1></html>'>

In [47]: re.match(r'<(?P<key1>.+)><(?P<key2>.+)>(.+)</(?P=key2)></(?P=key1)>','<html><h1>hello</h1></html>')
Out[47]: <_sre.SRE_Match object; span=(0, 27), match='<html><h1>hello</h1></html>'>

re.search 扫描整个字符串并返回第一个成功的匹配。

在目标字符串的任意位置,只会成功匹配一次就结束了,不会在尝试多次匹配。

In [61]: re.search(r'hello', '<html><h1>hello</h1></html>')
Out[61]: <_sre.SRE_Match object; span=(10, 15), match='hello'>

In [62]: re.search(r'hello', 'hello</h1></html>')
Out[62]: <_sre.SRE_Match object; span=(0, 5), match='hello'>

In [63]: re.search(r'^hello', 'hello</h1></html>')
Out[63]: <_sre.SRE_Match object; span=(0, 5), match='hello'>

re.findall()

Findall:在字符串中找到正则表达式所匹配的所有字串,并返回一个列表,如果没有找到匹配的,则返回空列表。

注意:match和search是匹配一次,findall匹配所有。

In [66]: re.findall(r'hello', '<html><h1>hello</h1></html>')
Out[66]: ['hello']

In [67]: re.findall(r'hello', '<html><h1>hello</h1>hello</html>')
Out[67]: ['hello', 'hello']

In [68]: re.findall(r'hello</h1>', '<html><h1>hello</h1>hello</html>')
Out[68]: ['hello</h1>']

In [69]: re.findall(r'\w+</h1>', '<html><h1>hello</h1></html>python</h1>')
Out[69]: ['hello</h1>', 'python</h1>']

re.sub()

将匹配到的数据进行替换

In [13]: def replace(result):
    ...:     print(result.group())
    ...:     r = int(result.group()) + 50
    ...:     return str(r)
    ...:

In [14]: re.sub(r'\d+', replace, 'python=1000, php=0')
1000
0
Out[14]: 'python=1050, php=50'

In [15]: re.sub(r'php', 'python', 'python, c++, php, java, php, python')
Out[15]: 'python, c++, python, java, python, python'

提取文本内容

In [32]: s
Out[32]: '<div>        <p>岗位职责:</p><p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p><p><br></p><p>必备要 求:</p><p>良好的自我驱动力和职业素养,工作积极主动、结果导向</p><p>&nbsp;<br></p><p>技术要求:</p><p>1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式</p><p>2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架</p><p>3、 掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中的一种<br></p><p>4、掌握NoSQL、MQ,熟练使用对应技术解决方 案</p>'

In [33]: re.sub(r'</*[a-z]+>|&nbsp;', ' ', s)
Out[33]: '          岗位职责:  完成推荐算法、数据统计、接口、后台等服务器端相关工作     必备要求:  良好的自我驱动力和 职业素养,工作积极主动、结果导向      技术要求:  1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式  2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架  3、掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中 的一种   4、掌握NoSQL、MQ,熟练使用对应技术解决方案 '

 

In [35]: re.split(r':|,|-', 'python,java:php,c++-c')
Out[35]: ['python', 'java', 'php', 'c++', 'c']

贪婪模式和非贪婪模式

Python里数量词默认是贪婪的,总是尝试匹配尽可能多的字符。

解决方式:非贪婪操作符‘?’,这个操作符可以用在‘*’,‘+’,‘?’的后面,要求正则匹配的越少越好。

In [43]: re.match(r'aa(\d+)', 'aa2345ddd').group(1)
Out[43]: '2345'

In [44]: re.match(r'aa(\d+?)', 'aa2345ddd').group(1)
Out[44]: '2'

In [45]: re.match(r'aa(\d+)ddd', 'aa2345ddd').group(1)
Out[45]: '2345'

In [46]: re.match(r'aa(\d+?)ddd', 'aa2345ddd').group(1)
Out[46]: '2345'

匹配的结果要尽可能的满足正则表达式的条件,所以非贪婪模式也不是绝对的。如下:

即使使用了贪婪模式,为了满足最后面的ddd,所以也会尽可能包含数字。

In [46]: re.match(r'aa(\d+?)ddd', 'aa2345ddd').group(1)

Out[46]: '2345'

需求:

字符串为:<img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;">请提取url地址

需要使用非贪婪模式

In [62]: s
Out[62]: '<img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;">'

In [63]: re.search(r'https.+?\.jpg', s).group()
Out[63]: 'https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg'

 

 

资源下载链接为: https://pan.quark.cn/s/3d8e22c21839 随着 Web UI 框架(如 EasyUI、JqueryUI、Ext、DWZ 等)的不断发展与成熟,系统界面的统一化设计逐渐成为可能,同时代码生成器也能够生成符合统一规范的界面。在这种背景下,“代码生成 + 手工合并”的半智能开发模式正逐渐成为新的开发趋势。通过代码生成器,单表数据模型以及一对多数据模型的增删改查功能可以被直接生成并投入使用,这能够有效节省大约 80% 的开发工作量,从而显著提升开发效率。 JEECG(J2EE Code Generation)是一款基于代码生成器的智能开发平台。它引领了一种全新的开发模式,即从在线编码(Online Coding)到代码生成器生成代码,再到手工合并(Merge)的智能开发流程。该平台能够帮助开发者解决 Java 项目中大约 90% 的重复性工作,让开发者可以将更多的精力集中在业务逻辑的实现上。它不仅能够快速提高开发效率,帮助公司节省大量的人力成本,同时也保持了开发的灵活性。 JEECG 的核心宗旨是:对于简单的功能,可以通过在线编码配置来实现;对于复杂的功能,则利用代码生成器生成代码后,再进行手工合并;对于复杂的流程业务,采用表单自定义的方式进行处理,而业务流程则通过工作流来实现,并且可以扩展出任务接口,供开发者编写具体的业务逻辑。通过这种方式,JEECG 实现了流程任务节点和任务接口的灵活配置,既保证了开发的高效性,又兼顾了项目的灵活性和可扩展性。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值