小结:
(一)
bs4库的基本元素:
tag 标签
name 标签名称
attributes 标签属性
navigablestring 字符串
comment 注释信息
bs库的遍历功能:
下行遍历
【.contents】[.children].[.descendants]
上行遍历
【.parents】【.parent】
平行遍历
【.next.sibling】【.previous_sibling】【.next_siblings】【.next_siblings】
信息标记三种方法: xml json yaml
信息提取的一般方法<>.find_all(name,sttrs,recursive,string,**kwargs)
可以把.find_all省略
(一)beautiful soup库
(1)安装 pip install beautifulsoup4
测试是否安装成功,对demo进行html的解析 查看该页面的源代码
显示安装成功
from bs4 import BeautifulSoup
(2)beautifulsoup库的基本元素
该库是解析html的功能库
源代码有一组尖括号构成的标签组织起来的。
beautifulsoup库是解析 遍历 维护 “标签树”的功能库
beautifulsoup 对应一个html/xml文档的全部内容
html.parser()
解析器:

基本元素:



本文介绍了Python网络爬虫中BeautifulSoup库的使用,包括基本元素、遍历方法、HTML内容的格式化和编码,以及信息组织与提取。通过实例展示了如何爬取中国大学排名信息,利用requests和BeautifulSoup完成网页抓取和数据提取。
最低0.47元/天 解锁文章
3941

被折叠的 条评论
为什么被折叠?



