python网络爬虫与信息提取（二）解析html页面的方法

最新推荐文章于 2022-12-27 09:00:31 发布

原创

最新推荐文章于 2022-12-27 09:00:31 发布 · 3.1k 阅读

21 ·

CC 4.0 BY-SA版权

本文介绍了Python网络爬虫中BeautifulSoup库的使用，包括基本元素、遍历方法、HTML内容的格式化和编码，以及信息组织与提取。通过实例展示了如何爬取中国大学排名信息，利用requests和BeautifulSoup完成网页抓取和数据提取。

小结：
(一)
bs4库的基本元素：
tag 标签
name 标签名称
attributes 标签属性
navigablestring 字符串
comment 注释信息
bs库的遍历功能：
下行遍历
【.contents】[.children].[.descendants]
上行遍历
【.parents】【.parent】
平行遍历
【.next.sibling】【.previous_sibling】【.next_siblings】【.next_siblings】

信息标记三种方法： xml json yaml
信息提取的一般方法<>.find_all(name,sttrs,recursive,string,**kwargs)
可以把.find_all省略

（一）beautiful soup库
（1）安装 pip install beautifulsoup4
测试是否安装成功，对demo进行html的解析查看该页面的源代码
显示安装成功
from bs4 import BeautifulSoup 在这里插入图片描述
（2）beautifulsoup库的基本元素
该库是解析html的功能库
源代码有一组尖括号构成的标签组织起来的。
beautifulsoup库是解析遍历维护 “标签树”的功能库
beautifulsoup 对应一个html/xml文档的全部内容
html.parser(）
解析器：
在这里插入图片描述
基本元素：