基础3·BeautifulSoup库（节点解析库）的使用方法

最新推荐文章于 2024-10-07 06:51:18 发布

原创最新推荐文章于 2024-10-07 06:51:18 发布 · 733 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#Beautifulsoup使用

爬虫基础专栏收录该内容

6 篇文章

订阅专栏

本文介绍如何使用Python的BeautifulSoup库解析HTML文档，包括导入库、解析文档、文本修复、获取内容、节点操作及选择器使用等核心功能。通过实例展示了find_all方法的多种参数设置，如name、attrs、recursive、text和limit，帮助读者掌握高效的数据抓取技巧。


#导入
from bs4 import BeautifulSoup


#解析
soup = BeautifulSoup(ret, "lxml")
ret: 需要解析的文本
lxml: 选择的解析器（包含：lxml，html.parser,）


# 文本修复
soup.prettify()


# 获取内容
soup.title.string
title.get_text()


# 获取下一个节点
soup.title.p
返回p的所有内容


# 获取该节点下的所有直接子节点（子节点里面包含的孙子节点也会获取到）
soup.title.contents
返回title下直接节点的所有内容（标签名字，属性，文本），直接提取即可
soup.title.childern
返回生成器类型，要获取内容要用for循环实现


# 获取所有子孙节点：
soup.title.descendants
返回生成器类型


# 方法选择器使用：
find_all(name, attrs, recursive, text, **kwargs)
name: 节点名字
soup.find_all(name='li')[0]
可加选择索引
li.find_all(name='ui')

attrs: 节点属性
soup.find_all(attrs={"id": "1223"})
soup.find_all(id='2132')
可以不使用attrs

text: 节点文本
可与正则搭配使用
soup.find_all(text=re.compile("我是小白"))

limit:返回个数
soup.find_all('a',limit=2)
只返回两个名字为a的标签

find_all的搭配使用
soup.find_all('div', class_='top')
寻到名字为div，class属性为top的所有标签