Python爬虫常用知识笔记

本文深入讲解了BeautifulSoup类的基本元素,包括Tag、Name、Attributes、NavigableString和Comment等,并详细阐述了标签树的遍历方法,如下行遍历、上行遍历和平行遍历,以及如何使用find方法进行网页解析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

BeautifulSoup类的基本元素

基本元素说明
Tag标签最基本的信息组织单元,分别用<>和</>开头结尾
Name标签的名字,格式为Tag.name如p.name
Attributes标签的属性,字典组织类型,格式为Tag.attrs
NavigableString标签内非属性字符串,即<>和</>之间的字符串,格式为Tag.string
Comment标签内字符串的注释部分,一种特殊的Comment类型

标签树的遍历

下行遍历

属性说明
Tag.contents子节点列表,将Tag的所有儿子节点存入列表
Tag.children子节点迭代类型,用于循环遍历儿子节点
Tag.descendants子孙节点迭代类型,用于循环遍历子孙节点

上行遍历

属性说明
Tag.parant节点的父亲类型
Tag.parents节点先辈标签的迭代类型

平行遍历

属性说明
Tag.next_sibling节点的下一平行节点标签
Tag.next_siblings迭代类型,后续所有的平行节点类型
Tag.previous_sibing节点的前一平行节点标签
Tag.previous_sibings迭代类型,之前所有的平行节点类型

** 注意 :** 平行遍历只发生在同一父亲节点下的各节点之间

举例

for child in soup.body.children:
	print(child)

BeautifulSoup类的find方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值