python爬虫（三）：BeautifulSoup 【5. 信息提取（find_all）】

最新推荐文章于 2025-06-08 16:18:34 发布

原创

最新推荐文章于 2025-06-08 16:18:34 发布 · 3.7k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

find_all：

<>.find_all(name, attrs, recursive, string, **kwargs)

∙ name : 对标签名称的检索字符串

∙ attrs: 对标签属性值的检索字符串，可标注属性检索

∙ recursive: 是否对子孙全部检索，默认True

∙ string: <>…</>中字符串区域的检索字符串

由于find_all很常用，所以有简写形式

<tag>('a')等价于<tag>.find_all('a')

soup('a') 等价于 soup.find_all('a')

信息提取方法：

方法一：完整解析信息的标记形式，再提取关键信息

XML JSON YAML

需要标记解析器，例如：bs4库的标签树遍历

优点：信息解析准确

缺点：提取过程繁琐，速度慢

方法二：无视标记形式，直接搜索关键信息

搜索

对信息的文本查找函数即可

优点：提取过程简洁，速度较快

缺点：提取结果准确性与信息内容相关

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ant_yi

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

BeautifulSoup的soup.find_all（）与 soup.select（）赏析

linershigebaobao的博客

06-29

8213

如果我们用BeautifulSoup去解析网页来爬虫，那么90%以上需要用到find_all（），当然如果对CSS更为了解，其实select也是一种相当不错的选择。 from bs4 import BeautifulSoup soup = BeautifulSoup（response.text， 'lxml'）这是我们常用的炖汤程序，而对于汤的赏析，就需要用soup.find_all（），soup.select（）去细细品味其中滋味。 1、find_all（） find_all（tag，a...

chatgpt赋能python：Python的BeautifulSoup库和find_all()方法

m0_56069948的博客

05-25

1310

Beautiful Soup是一种用于解析HTML和XML文档的Python包。它可用于提取信息，例如标题和段落，或者链接和表格以及其他结构化数据。它创建了一个解析树，以便轻松地遍历文档的标签树，使数据提取等任务变得更加简单。本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。

1 条评论您还未登录，请先登录后发表或查看评论

【Python爬虫】Beautifulsoup4中find_all函数

一个甜甜的大橙子的博客

04-25

2万+

find_all() find_all( name , attrs , recursive , text , **kwargs ) find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件.这里有几个例子: soup.find_all("title") #[<title>The Dormouse's story</title>] soup.f...

findall 方法

最新发布

m0_46322965的博客

06-08

372

findall是 Python 中re模块提供的一个正则表达式方法，用于在字符串中查找所有匹配的子串，并以列表形式返回所有匹配结果。

[Python]find_all函数 2020.2.7

weixin_43847567的博客

02-07

979

.find_all(name,attrs,recursive,string,**kwargs) name：对标签名称的检索字符串attrs：对标签属性值的检索字符串，可标注属性检索recursive：是否对子孙全部检索，默认为Truestring <>....</>中字符串区域的检索字符串 soup.find_all('a')寻找a标签 soup.find_all...

python爬虫学习笔记 -- 信息提取 及HTML内容查找方法(soup.find_all()) + 正则表达式

Changod的博客

04-27

5659

方法一：完整解析信息的标记形式，再提取关键信息需要标记解析器（例如bs4库的标签树遍历）优点：信息解析准确缺点：提取过程繁琐，速度慢方法二：无视标记形式，直接搜索关键信息直接对信息的文本查找函数即可优点：简介，快速缺点：提取结果准确性与信息内容相关融合方法：结合形式的解析和搜索方法，提取关键信息 XML JSON YAML搜索需要标记解析...

python soup.find_初识python 之爬虫：BeautifulSoup 的 find、find_all、select 方法

weixin_39637975的博客

12-08

3150

from bs4 import BeautifulSouplxml 以lxml形式解析html，例：BeautifulSoup(html,'lxml') #注：html5lib 容错率最高find 返回找到的第一个标签find_all 以list的形式返回找到的所有标签limit 指定返回的标签个数attrs 将标签属性放到一个字典中string 获取标签下的非标签字符串(值), 返回字符串st...

python find next_python爬虫：使用BeautifulSoup进行查找

weixin_39974409的博客

12-03

2096

网页中有用的信息通常存在于网页中的文本或各种不同标签的属性值，为了获得这些网页信息，有必要有一些查找方法可以获取这些文本值或标签属性。而Beautiful Soup中内置了一些查找方式：find()find_all()find_parent()find_parents()find_next_sibling()find_next_siblings()find_previous_sibling()fi...

Python爬虫开发：BeautifulSoup、Scrapy入门

互联网架构小马的博客

08-12

1967

BeautifulSoup是一个Python库，用于从HTML或XML文档中提取数据。它能够通过标签和属性来定位和提取数据，非常适合进行小规模的网页抓取任务。Scrapy是一个用于爬取网站并提取结构化数据的应用框架。它提供了强大的功能，如处理请求、解析HTML、管理爬取的数据等，适合进行大规模的爬虫开发。通过本文，我们详细介绍了Python中的两个流行的爬虫开发库：BeautifulSoup和Scrapy。我们不仅介绍了它们的基本用法，还深入探讨了它们的高级功能和应用场景。

python学习爬虫（6）--BeautifulSoup搜索文档树:find_all(),find(),find_parents()等

weixin_31315135的博客

03-28

2352

作者：IT小样通过之前的系列我们现在已经了解了BeautifulSoup的属性、操作，现在我们来一起学习一下如何搜索文档树。 1、find_all（）方法 find_all()方法，找到所有匹配，关于传入参数，可以传入各种类型，接下来介绍不同过滤器。 1.1、过滤器 1.1.1、字符串过滤器仍然以之前的html_doc为例，来进行示范： html_doc = ''' <html>&...

BeautifulSoup模块，html.parser，解析数据，提取数据，find()与find_all()，Tag对象

weixin_42390253的博客

12-07

829

l链接

python - BeautifulSoup中的find()和findAll()

小沫_jie的博客

11-30

1万+

内容取自《python 网络数据采集》

python之find all

New一个对象

07-21

676

#coding:utf8 from bs4 import BeautifulSoup #指定要搜索的文档: html_doc = """ The Dormouse's story The Dormouse's story Once upon a time there were three little sisters; and their names were Elsie, Lacie a

python+find_all函数_BeautifulSoup库之find_all函数

weixin_34036667的博客

12-30

2546

BeautifulSoup将复杂的HTML文档转换成一个复杂的树形结构.每个节点都是Python对象.所有对象可以归纳为四种:Tag,NavigableString,BeautifulSoup,Comment.1.Tag对象最重要的属性:Name:标签的名字；attributes:属性(用class指代)2.BeautifulSoup对象表示的是一个文档的全部内容.大部分时候,可以...

python爬虫（1.find和findAll函数提取文本）

热门推荐

dawen1937的博客

12-29

2万+

from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html") bsObj = BeautifulSoup(html) #根据css样式表查找 nameList = bsObj.findAll(

python 如何使用find和find_all，爬虫、找文本

贼厉害

10-14

6231

这篇文章我们来讲讲如何在python使用bs4模块返回值中正确使用find和find_all来取值。我们先来看看find函数在两种场景使用：一、 find在字符串（str）时可以查找使用。在字符串（str）是怎么来使用find函数，find函数就是找到的意思。我们来看看下面案例 #---------案例1----------- a='0123456789'#因为我们电脑中的字节都是从0开始算第一个位置 b=a.find('0')#这行代码的意思就是我要查找a中0的位置 print（b） >&

python soup findall_Python使用BeautifulSoup库解析HTML基本使用教程

weixin_39675728的博客

12-08

460

BeautifulSoup是Python的一个第三方库，可用于帮助解析html/XML等内容，以抓取特定的网页信息。目前最新的是v4版本，这里主要总结一下我使用的v3版本解析html的一些常用方法。准备1.Beautiful Soup安装为了能够对页面中的内容进行解析，本文使用Beautiful Soup。当然，本文的例子需求较简单，完全可以使用分析字符串的方式。执行sudo easy_insta...

python beautifulsoup库_python BeautifulSoup库用法总结

weixin_39564617的博客

11-29

121

1. Beautiful Soup 简介简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文...

22 BeautifulSoup类的find_all()方法的其他属性的用法

weixin_63986098的博客

07-09

3474

find_all()方法有6个参数：【参数1】name：接收tag名称。【参数2】attrs：参数接收属性的键值对字典。【参数3】**kwargs：接收变量赋值形式的属性。注意class后的下划线：`class_` 【参数4】text：接收文本信息。【参数5】limit：限制返回的标签数量。【参数6】recursive：是否获取子孙节点。 ...

Python爬虫实战：获取qichemen.com投诉信息

通过这段代码，用户可以了解如何利用Python爬虫技术从特定网页中提取所需的信息，特别是那些通过CSS类名定位的动态加载内容。这对于数据分析、信息抓取以及网站监控等场景非常有用。不过，实际使用时需要注意遵守...