Bs4
导入bs4
from bs4 import BeautifulSoup
在使用bs4进行数据解析时,要将网络请求返回的页面传入BeautifulSoup()构建一个BeautifulSoup对象
page=BeautifulSoup(resp.text, "html.parser")
然后就可以使用page来对页面元素进行查找
查找方法
- 根据标签名查找,如page.a将得到第一个a标签
find和find_all,如page.find('div',class=' '),find只会返回一个标签,而find_all会返回一个列表,并且可以同时查找多种标签,将['div','a']传入即可select:跟css选择器使用方式差不多,自行学习css
获取节点信息
在得到对应的标签后,我们应该如何获取标签内的信息呢?
- 可以通过
obj.string和obj.gettext()获取标签的文本信息 - 使用
obj.get(' ')获取标签属性值,也可以直接obj[' ']获取,还可以obj.attrs.get(' '),.attrs是该节点的属性值字典
父节点和子节点
使用.parent和.children获取某一个节点的父节点和子节点
2023.3.19
1370

被折叠的 条评论
为什么被折叠?



