BeautifulSoup 用法总结

最新推荐文章于 2025-07-02 13:31:46 发布

Ayhan_huang

最新推荐文章于 2025-07-02 13:31:46 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏： python 文章标签： html解析器 python

本文链接：https://blog.youkuaiyun.com/Ayhan_huang/article/details/78488705

46 篇文章

订阅专栏

BeautifulSoup是一个Python库，用于从HTML和XML文件中提取数据。本文将介绍其安装、解析器选择、标签选择器、常用属性和方法，如find_all、CSS选择器和内容提取等，帮助你高效解析网页。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

介绍

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库

pip install beautifulsoup4

Beautiful Soup支持Python标准库中的HTML解析器（’html.parser’）,还支持一些第三方的解析器，比如lxml，推荐用后者，纯C实现的，速度更快：

pip install lxml

from bs4 import BeautifulSoup

soup=BeautifulSoup(html_doc,'lxml')
soup=soup.prettify() #容错处理===>自动补全代码

一个html是一个对象，对象可以嵌套对象；每个soup对象下的每一个标签，也都是对象。

find与find_all方法: 可根据标签名,属性,内容查找文档，但是find只找第一个元素。

通过select方法来选择，支持CSS选择的器的所有方式，在此不详述。

子节点、子孙节点：
- 子节点：soup_obj.contents 返回列表；soup_obj.children返回迭代器
- 子孙节点：soup_obj.descendants
父节点、祖先节点：soup_obj.parent父节soup_obj.parents祖先节点
兄弟节点：soup_obj.next_siblings；soup_obj.previous_siblings