Week8.2: Python爬虫项目

想象者猪

已于 2022-08-23 16:42:48 修改

阅读量317

点赞数

CC 4.0 BY-SA版权

文章标签：爬虫

于 2022-08-23 16:38:24 首次发布

本文详细介绍了如何使用Python的re库进行HTML文件解析，讲解了正则表达式的常用操作符，如点号、字符集、非字符集等，并列举了re库的主要功能函数，如search、match、findall等。通过实例展示了如何从HTML文本中提取所需信息，为网页抓取和数据提取提供了实用技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

三、解析内容

3.1 对爬取的HTML文件进行解析

3.1.1 制定解析规则

利用正则表达式来检索html文本中所需要的信息。

正则表达式的常用操作符：

re库主要功能函数：

函数	说明
re.seach()	在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
re.match()	从一个字符串的开始位置起匹配正则表达式，返回match对象
re.findall()	搜索字符串，以列表类型返回全部能匹配的子串
re.split()	将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
re.finditer()	搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
re.sub()	在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

修饰符：

修饰符	描述
re.i	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware)匹配
re.M	多行匹配，影响^和$
re.S	使匹配包括换行的所有字符
re.U	根据Unicode字符祭解析字符，这个标志影响\w,\W,\b,\B
re.X	该标志通过给予你更灵活的形式以便你将正则i表达式写的更易于理解