python网络爬虫之BeautifulSoup库

最新推荐文章于 2025-04-20 15:18:40 发布

原创最新推荐文章于 2025-04-20 15:18:40 发布 · 259 阅读

CC 4.0 BY-SA版权

本文介绍了 BeautifulSoup4 的安装方法及使用技巧，详细解释了如何利用该库解析 HTML 文档的基本元素，包括 Tag、Name、Attributes 和 NavigableString 等，并提供了标签树的遍历方法，帮助读者掌握 BeautifulSoup4 的核心功能。

如果没有这个库的话，请先安装，最简单的安装方式是，打开cmd，输入

pip install beautifulsoup4

1、Beautiful Soup类基本元素

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾
Name	标签的名字，<p>...</p>的名字是‘p'，格式<tag>.name
Attributes	标签的属性，字典形式组织，格式：<tag>.attrs
NavigableString	标签内非属性的字符串，<>...</>中字符串，格式：<tag>.string
Comment	标签内字符串的注释部分，一种特殊的comment

2、标签树的下行遍历

3、标签树的上行遍历

4、标签树的平行遍历

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前续所有平行节点标签