python爬虫学习之路(4)--正则表达式

正则表达式是用来处理字符串的,可以用来对字符串进行检索、替换、匹配等

正则表达式

感觉单从理论上说正则表达式太过于抽象,直接举一个例子可能更方便理解。
这里只记录通用匹配,因为暂时感觉实用性更高,如果以后要用到其它细节,再倒过头来学吧,毕竟,咳咳,脑子记不住这么多东西。
首先python要引入re库,关于怎样引入之前有过记录。
首先说一下三个常用的匹配规则,
“.” :匹配任意字符,回车除外,加re.S即可匹配回车
“*” :匹配0个或多个表达式
“?”:匹配一个或者多个前面的正则表达式定义片段,非贪婪方式

import re
#要处理的文本
html = '''
<div id="movie-list">
<h2 class = "title">经典电影</h2>
<p class ="introduction">经典电影列表</p>
<ul id ="list" class ="list-group">
<li data-view="2">霸王别姬</li>
<li data-view="4" class="active"><a href="/2.avi director="aaa">阿甘正传</a>
</li>
<li data-view="6"><a href="/3.avi director="bbb">绿皮书</a>
</li>
</ul>
</div>

#search 方法,返回第一个匹配到的结果
result =re.search('<li.*?director="(.*?)">(.*?)</a>',html)
if result:
   #注意,这里第一个(.*?)是从1开始
   #大家可以猜一下结果,猜中了你也就大概懂了
	print(result.group(1),result.group(2))

#findall()方法,返回所有符合结果的匹配
results =re.search('<li.*?director="(.*?)">(.*?)</a>',html)
print(results)


#可以用compile()方法将正则字符串编译成正则表达式对象,以便以后使用
pattern = re.compile('<li.*?director="(.*?)">(.*?)</a>',re.S)
result = re.search(pattern,html)
print(result)

#sub()函数可以替换文本中内容
html =re.sub(<a.*?>|</a>','',html)
print(html)

注意几点

1.关于贪婪和不贪婪问题:
.是贪婪匹配,会匹配更多的字符,比如’ABC 123’
如果是贪婪的话AB(.
)(\d+)会匹配到123
而不是贪婪只匹配3

2.re.S
称之为修饰符,常用的还有re.I(对匹配大小不敏感)等,大家用的时候可以百度一下,这里不想细说。

下面一节举一个详细的例子,对以前学的进行一下总结。

此压缩包包含了本毕业设计项目的完整内容,具体包括源代码、毕业论文以及演示PPT模板。 开发语言:Java 框架:SSM(Spring、Spring MVC、MyBatis) JDK版本:JDK 1.8 或以上 开发工具:Eclipse 或 IntelliJ IDEA Maven版本:Maven 3.3 或以上 数据库:MySQL 5.7 或以上 项目配置完成后即可运行,若需添加额外功能,可根据需求自行扩展。 运行条件 确保已安装 JDK 1.8 或更高版本,并正确配置 Java 环境变量。 使用 Eclipse 或 IntelliJ IDEA 打开项目,导入 Maven 依赖,确保依赖包下载完成。 配置数据库环境,确保 MySQL 服务正常运行,并导入项目中提供的数据库脚本。 在 IDE 中启动项目,确认所有服务正常运行。 主要功能简述: 请假审批流程:系统支持请假申请的逐级审批,包括班主任审批和院系领导审批(针对超过三天的请假)。学生可以随时查看请假申请的审批进展情况。 请假记录管理:系统记录学生的所有请假记录,包括请假时间、原因、审批状态及审批意见等,供学生和审批人员查询。 学生在线请假:学生可以通过系统在线填写请假申请,包括请假的起止日期和请假原因,并提交给班主任审批。超过三天的请假需经班主任审批后,再由院系领导审批。 出勤信息记录:任课老师可以在线记录学生的上课出勤情况,包括迟到、早退、旷课和请假等状态。 出勤信息查询:学生、任课老师、班主任、院系领导和学校领导均可根据权限查看不同范围的学生上课出勤信息。学生可以查看自己所有学年的出勤信息,任课老师可以查看所教班级的出勤信息,班主任和院系领导可以查看本班或本院系的出勤信息,学校领导可以查看全校的出勤信息。 出勤统计与分析:系统提供出勤统计功能,可以按班级、学期等条件统计学生的出勤情况,帮助管理人员了解学生的出勤状况。 用户管理:系统管理员负责管理所有用户信息,包括学生、任课老师、班主任、院系领导和学校领导的账号创建、权限分配等。 数据维护:管理员可以动态更新和维护系统所需的数据,如学生信息、课程安排、学年安排等,确保系统的正常运行。 系统配置:管理员可以对系统进行配置,如设置数据库连接参数、调整系统参数等,以满足不同的使用需求。 身份验证:系统采用用户名和密码进行身份验证,确保只有授权用户才能访问系统。不同用户类型(学生、任课老师、班主任、院系领导、学校领导、系统管理员)具有不同的操作权限。 权限控制:系统根据用户类型分配不同的操作权限,确保用户只能访问和操作其权限范围内的功能和数据。 数据安全:系统采取多种措施保障数据安全,如数据库加密、访问控制等,防止数据泄露和非法访问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值