两个函数非常相似:
findAll(tag, attributes, recursive, text, limit, keywords)
find(tag, attributes, recursive, text, keywords)
TAG
在beautifulsoup里,可以同时查找多个标签,将标签名字放入一个list即可:
nameList=bsObj.findAll(["h1","h2"])#bsObj是beautifulsoup获得的html script。
ATTRIBUTES
标签的参数用字典封装起来:{“class”:“green”}。
同样标签也可以同时查找多个:{“class”:{“green”,“red”}}
RECURSIVE
嗯,这个要打的字好多啊,我直接引用穿山甲那本书喽
递归参数recursive 是一个布尔变量。你想抓取HTML 文档标签结构里多少层的信息?如果
recursive 设置为True,findAll 就会根据你的要求去查找标签参数的所有子标签,以及子
标签的子标签。如果recursive 设置为False,findAll 就只查找文档的一级标签。findAll
默认是支持递归查找的(recursive 默认值是True);一般情况下这个参数不需要设置,除
非你真正了解自己需要哪些信息,而且抓取速度非常重要,那时你可以设置递归参数。
TEXT
tag是用标签来匹配所查找的文本,而text则是用标签所含的文本内容进行匹配:
nameList = bsObj.findAll(text="the prince")
LIMIT
find()和findAll()的区别在于此,find()相当于findAll()的limit是1. limit决定从所有结果中选出几个。比如:limit=7,则选择所有结果的前7个。
KEYWORD
用于选择有指定属性的标签。
关键词参数的注意事项
虽然关键词参数keyword 在一些场景中很有用,但是,它是BeautifulSoup 在
技术上做的一个冗余功能。任何用关键词参数能够完成的任务,同样可以用
本章后面将介绍的技术解决(请参见2.3 节和2.6 节)。
例如,下面两行代码是完全一样的:
bsObj.findAll(id=“text”)
bsObj.findAll("", {“id”:“text”})
另外,用keyword 偶尔会出现问题,尤其是在用class 属性查找标签的时候,
因为class 是Python 中受保护的关键字。也就是说,class 是Python 语言
的保留字,在Python 程序里是不能当作变量或参数名使用的(和前面介绍
的BeautifulSoup.findAll() 里的keyword 无关)2。假如你运行下面的代码,
Python 就会因为你误用class 保留字而产生一个语法错误:
bsObj.findAll(class=“green”)
不过,你可以用BeautifulSoup 提供的有点儿臃肿的方案,在class 后面增加一个下划线:
bsObj.findAll(class_=“green”)
另外,你也可以用属性参数把class 用引号包起来:
bsObj.findAll("", {“class”:“green”})
看到这里,你可能会扪心自问:“现在我是不是已经知道如何用标签属性获取一组标签了——用字典把属性传到函数里就行了?”
回忆一下前面的内容,通过标签参数tag 把标签列表传到.findAll() 里获取一列标签,其实就是一个“或”关系的过滤器(即选择所有带标签1 或标签2 或标签3……的一列标签)。如果你的标签列表很长,就需要花很长时间才能写完。而关键词数keyword 可以让你增加一个“与”关系的过滤器来简化工作。

3530

被折叠的 条评论
为什么被折叠?



