关于BeautifulSoup

最新推荐文章于 2024-03-18 15:46:55 发布

原创最新推荐文章于 2024-03-18 15:46:55 发布 · 371 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍了如何使用BeautifulSoup库解析HTML文档。BeautifulSoup提供了一种简单的方法来解析HTML文本，并将其转换为Tag、NavigableString、BeautifulSoup和Comment四种主要的数据类型。了解这些类型有助于更好地操作和提取HTML文档中的信息。

使用 BeautifulSoup

构建一个 BeautifulSoup 对象需要两个参数，第一个参数是将要解析的 HTML 文本字符串，第二个参数告诉 BeautifulSoup 使用哪个解析器来解析 HTML。

BeatifulSoup 将 HTML 抽象成为 4 类主要的数据类型，分别是Tag , NavigableString , BeautifulSoup，Comment 。每个标签节点就是一个Tag对象，NavigableString 对象一般是包裹在Tag对象中的字符串，BeautifulSoup 对象代表整个 HTML 文档