BeautifulSoup简介

最新推荐文章于 2025-11-05 11:40:31 发布

原创

最新推荐文章于 2025-11-05 11:40:31 发布 · 2.2k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

BeautifulSoup是一个基于HTML DOM的解析库，提供人性化的API。它支持CSS选择器和多种解析器。本文介绍了BeautifulSoup的四个主要对象：Tag、NavigableString、BeautifulSoup和Comment，并详细阐述了节点集合、特殊属性及搜索文档树的方法，如name参数、keyword参数和text参数的使用。

BeautifulSoup简介

介绍

lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。

BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。
使用 pip 安装即可：pip install beautifulsoup4

bs四大对象

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag
NavigableString
BeautifulSoup
Comment

Tag
Tag对应 HTML 中的一个个标签
Tag，它有两个重要的属性，是 name 和 attrs
name是标签名，attrs是标签的属性
注意：BeautifulSoup直接调用Tag，只会获得Html中第一个相应的Tag数据
NavigableString
标签中的内容数据
使用string属性获取该对象，例如：soup.p.string 获得bs中p标签的内容
BeautifulSoup
BeautifulSoup 对象表示的是一个文档的内容。大部分时候,可以把它当作 Tag 对象，是一个特殊的 Tag，与Tag有相同的 name，attrs属性
Comment
Comment 对象是一个特殊类型的 NavigableString 对象，其输出的内容不包括注释符号。
实际就是如过内容中有注释符号，soup.p.st

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。