Python网络爬虫与信息提取【BeautifulSoup (“美味的汤”)库的安装与用法】

最新推荐文章于 2024-02-26 11:29:55 发布

原创

最新推荐文章于 2024-02-26 11:29:55 发布 · 置顶 · 883 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python爬虫 #BeautifulSoup #安装 #用法

本文介绍了Python中的BeautifulSoup库，用于HTML和XML文档的解析。讲解了BeautifulSoup的安装方法，包括命令行安装和手动安装。接着，文章详细阐述了库的基本元素、HTML内容遍历的下行、上行和平行遍历方式，以及如何通过prettify()方法进行格式化和编码处理。最后，讨论了信息标记的三种形式：XML、JASON和YAML，及其各自的特点和应用场景。

1.Beautiful Soup库的安装

Beautiful Soup库是解析、遍历、维护“标签树”的功能库
1.Beautiful Soup 是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。
2.它提供简单而又常用的导航（navigating），搜索以及修改剖析树的操作。可以节省你的编程时间。
BeautifulSoup库本身解析的是html和xml文档，那么这个文档与标签树是一一对应的，经过了BeautifulSoup类的处理，html或xml文档这样的标签树，就被转换成一个BeautifulSoup类。BeautifulSoup类就是能够代表标签树的一个类型。
安装方式一："windows+R"输入cmd，在命令行中输入 pip install beautifulsoup4安装完成后可以通过from bs4 import BeautifukSoup进行检测,不报错，证明安装成功
安装方式二：从官网下载Beautifulsoup的软件包，然后解压，cmd命令行进入解压包目录，输入以下命令安装：python setup.py install在Python3里一定要安装beautifulsoup4的版本，其它版本安装不上的。

import requests
r = requests.get("http://www.baidu.com")
demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,"html.parser")
print(soup.prettify())

Beautiful Soup库解析器：

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup(mk,‘html.parser’)	安装bs4库
xmI的HTML解析器	BeautifulSoup(mk,‘lxml’)	pip install lxml
lxml的XML解析器	BeautifulSoup(mk,‘xml’)	pip install lxml
html5lib的解析器	BeautifulSoup(mk, ‘html5lib’)	pip install html5lib