Beautifulsoup之findAll（）和find（）

最新推荐文章于 2024-01-28 14:44:34 发布

原创最新推荐文章于 2024-01-28 14:44:34 发布 · 992 阅读

0 ·

CC 4.0 BY-SA版权

python 同时被 3 个专栏收录

3 篇文章

订阅专栏

爬虫

2 篇文章

订阅专栏

Beautifulsoup

1 篇文章

订阅专栏

两个函数非常相似：
findAll(tag, attributes, recursive, text, limit, keywords)
find(tag, attributes, recursive, text, keywords）

TAG

在beautifulsoup里，可以同时查找多个标签，将标签名字放入一个list即可：

nameList=bsObj.findAll(["h1","h2"])#bsObj是beautifulsoup获得的html script。

ATTRIBUTES

标签的参数用字典封装起来：{“class”:“green”}。
同样标签也可以同时查找多个：{“class”:{“green”,“red”}}

RECURSIVE

嗯，这个要打的字好多啊，我直接引用穿山甲那本书喽

递归参数recursive 是一个布尔变量。你想抓取HTML 文档标签结构里多少层的信息？如果
recursive 设置为True，findAll 就会根据你的要求去查找标签参数的所有子标签，以及子
标签的子标签。如果recursive 设置为False，findAll 就只查找文档的一级标签。findAll
默认是支持递归查找的（recursive 默认值是True）；一般情况下这个参数不需要设置，除
非你真正了解自己需要哪些信息，而且抓取速度非常重要，那时你可以设置递归参数。

TEXT

tag是用标签来匹配所查找的文本，而text则是用标签所含的文本内容进行匹配：

nameList = bsObj.findAll(text="the prince")

LIMIT

find()和findAll()的区别在于此，find（）相当于findAll（）的limit是1. limit决定从所有结果中选出几个。比如：limit=7，则选择所有结果的前7个。

KEYWORD

用于选择有指定属性的标签。

关键词参数的注意事项
虽然关键词参数keyword 在一些场景中很有用，但是，它是BeautifulSoup 在
技术上做的一个冗余功能。任何用关键词参数能够完成的任务，同样可以用
本章后面将介绍的技术解决（请参见2.3 节和2.6 节）。
例如，下面两行代码是完全一样的：
bsObj.findAll(id=“text”)
bsObj.findAll("", {“id”:“text”})
另外，用keyword 偶尔会出现问题，尤其是在用class 属性查找标签的时候，
因为class 是Python 中受保护的关键字。也就是说，class 是Python 语言
的保留字，在Python 程序里是不能当作变量或参数名使用的（和前面介绍
的BeautifulSoup.findAll() 里的keyword 无关）2。假如你运行下面的代码，
Python 就会因为你误用class 保留字而产生一个语法错误：
bsObj.findAll(class=“green”)
不过，你可以用BeautifulSoup 提供的有点儿臃肿的方案，在class 后面增加一个下划线：
bsObj.findAll(class_=“green”)
另外，你也可以用属性参数把class 用引号包起来：
bsObj.findAll("", {“class”:“green”})
看到这里，你可能会扪心自问：“现在我是不是已经知道如何用标签属性获取一组标签了——用字典把属性传到函数里就行了？”
回忆一下前面的内容，通过标签参数tag 把标签列表传到.findAll() 里获取一列标签，其实就是一个“或”关系的过滤器（即选择所有带标签1 或标签2 或标签3……的一列标签）。如果你的标签列表很长，就需要花很长时间才能写完。而关键词数keyword 可以让你增加一个“与”关系的过滤器来简化工作。