BeautifuSoup整理笔记

最新推荐文章于 2024-11-20 23:37:43 发布

原创最新推荐文章于 2024-11-20 23:37:43 发布 · 427 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #select #tag #BeautifulSoup #爬虫

python BeautifulSoup 专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了BeautifulSoup4库中find和find_all方法的基本用法，包括过滤器和参数设置。同时，还阐述了CSS选择器在获取网页元素时的高效应用。

find直接返回结果，select和find_all返回list

soup.title => tag

tag.name => tag_name

find/find_all用法基本相同

find_all(过滤器）

过滤器：

1 字符串

2 正则表达式

3 列表

4 方法

5 True

参数：find_all(nam,attrs,recursive,text,**kwargs)

find_all(attrs={'name':'maintain'}) #使用字典传入多个属性,可以选择使用tag.name or 不用 : a = s.find_all('a',attrs={'href':'#id4','class':'headerlink'})

find_all(class_='link-list') ; find_all('p',class_='link-list')

find_all(text = 'Overview') => 字符串; find_all('p',text = 'Overview') => [tag],tag 的内容是字符'Overview'; find_all('p',text = re.compile('Beautiful')) =>[tag],tag文本内容包含'Beautiful'

limit 参数:

tag.find_all('a',limit=2)

recursive 参数:

True(默认):检索当前tag所有子孙节点

False:只检索当前所有直接子节点

其他find/find_all:

find_parent()/find_parents(); find_next_sibling()/find_next_siblings(); find_next()/find_all_next(); find_previous()/find_all_previous()

css 选择器(select()):

返回list

直接子节点: tag.select('head > title')

通过类名查找: tag.select('.main-content') 通过id查找: tag.select('#id')

通过是否存在某个属性查找: tag.select('a[href]') #注意href没有引号 tag.select('tr[algin]')

通过属性值来查找: tag.select('a[name="ain-content"]')

修改文档树:

append()方法,用法同python:

<a>fo</a> a.append('bar') => <a>fobar</a>

更深入方法请查看BeautifulSoup官方文档

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。