Python 网络爬虫与信息提取（第三周）

最新推荐文章于 2025-06-11 10:31:35 发布

谢晓永

最新推荐文章于 2025-06-11 10:31:35 发布

阅读量2.8k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Python网络爬虫与信息提取

本文链接：https://blog.youkuaiyun.com/xiaoyong5854/article/details/84668765

本文介绍了Python网络爬虫实战的第三周内容，主要讲解了Beautiful Soup库和re库的关系，强调两者在HTML解析和字符串模式匹配上的不同。同时，通过多项选择题的形式详细阐述了正则表达式的用法、优势、常见操作符及正则在IP地址匹配等场景的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python网络爬虫之实战 (第3周)

1.Beautiful Soup库与re库之间关系，描述正确的是：‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬
A
这两个库没有关系
B
re库中可以加载Beautiful Soup库
C
re库能实现HTML解析，功能上与Beautiful Soup库类似
D
Beautiful Soup库中可以加载re库
正确答案： A
两者没关系，re库以字符串模式匹配与检索方式提取信息，与Beautiful Soup库不同。

2.‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬以下不是正则表达式优势的选项是：‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬
A
特征表达
B
简洁
C
实现自动化脚本
D
一行胜千言
正确答案： C
尽管正则表达式可用于自动化脚本，但不直接体现自动脚本的作用。

3.‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬re库可以使用如下方式表示正则表达式：r’[1-9]\d{5}’，其中r是什么意思？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬
A
原生字符串标记
B
正则表达式标记
C
开始位置标记
D
强制标记
正确答案： A
字符串包括：普通字符串和原生字符串，原生字符串中没有转义符（\）。

4.‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬ 正则表达式：\d{3}-\d{8}|\d{4}-\d{7}能匹配哪个？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬
A
010-1234567
B
010-12345678
C
01012345678
D
0521-12345678
正确答案： B
\d{3}-\d{8}|\d{4}-\d{7}

表示：3个数字-8个数字或者 4个数字-7个数字

5.‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬正则表达式：^[A-Za-z\d]+$的含义是什么？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬
A