python soup.find_初识python 之 爬虫:BeautifulSoup 的 find、find_all、select 方法

本文详细介绍了如何使用Python的BeautifulSoup库进行网页解析,包括find、find_all、select等方法的用法,如查找特定标签、限制返回数量、获取属性值以及提取文本信息等。同时,通过实例展示了如何筛选特定属性的标签并获取非标签字符串。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

from bs4 import BeautifulSoup

lxml 以lxml形式解析html,例:BeautifulSoup(html,'lxml') # 注:html5lib 容错率最高

find 返回找到的第一个标签

find_all 以list的形式返回找到的所有标签

limit 指定返回的标签个数

attrs 将标签属性放到一个字典中

string 获取标签下的非标签字符串(值), 返回字符串

strings 获取标签下的所有非标签字符串, 返回生成器。

stripped_strings 获取标签下的所有非标签字符串,并剔除空白字符,返回生成器。

get_text # 获取标签下的所有非标签字符串,返回字符串格式

contents、children都是返回某个标签下的直接子元素,包含字符串。 contents 返回一个列表,children 返回一个生成器

select 方法和find_all极其相似

以实际例子作说明:

1、定义一个html,并使用BeautifulSoup的lxml解析

from bs4 importBeautifulSoup

html= '''

职位名称 职位类别 时间
职位一 类别一 时间1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值