BeautifulSoup库详解（个人整理）

最新推荐文章于 2025-04-18 14:00:06 发布

岁月如梭518

最新推荐文章于 2025-04-18 14:00:06 发布

阅读量8.2k

点赞数 9

分类专栏：解析网页 python 第三方函数库整理文章标签： python

本文链接：https://blog.youkuaiyun.com/weixin_47476051/article/details/105885932

版权

本文详细介绍了BeautifulSoup4库在网页解析中的应用，包括其四大对象类型：Tag、NavigableString、BeautifulSoup和Comment。讲解了如何通过find_all、find等方法查找元素，以及如何使用CSS选择器。此外，还探讨了遍历文档树的各种方式，如.children、.contents等。文章适合Python爬虫初学者阅读。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BeautifulSoup4是爬虫必学的技能。BeautifulSoup最主要的功能是从网页抓取数据，Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐使用lxml 解析器。

一、简介

灵活又方便的网页解析库，处理高效，支持多种解析器。
利用它不用编写正则表达式即可方便地实现网页信息的提取。
安装：pip3 install BeautifulSoup4

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	Python的内置标准库、执行速度适中、文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文容错能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快、文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, “xml”)	速度快、唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档	速度慢、不依赖外部扩展

二、基本用法

#基本用法
from bs4 import BeautifulSoup
bs = BeautifulSoup(html,"html.parser") # 缩进格式
print(bs.prettify())
print(bs.prettify()) # 格式化html结构
print(bs.title) # 获取title标签的名称
print(bs.title.name) # 获取title的name
print(bs.title.string) # 获取head标签的所有内容
print(bs.head) 
print(bs.div)  # 获取第一个div标签中的所有内容
print(bs.div["id"]) # 获取第一个div标签的id的值
print(bs.a) 
print(bs.find_all("a")) # 获取所有的a标签
print(bs.find(id="u1"))

最低0.47元/天解锁文章