Python网络爬虫与信息提取-Day6-Beautiful Soup库

最新推荐文章于 2023-08-19 17:23:59 发布

辣鸡翔

最新推荐文章于 2023-08-19 17:23:59 发布

阅读量502

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python 网络爬虫文章标签：网络爬虫 python

本文链接：https://blog.youkuaiyun.com/chenxiang001/article/details/77600574

python 同时被 2 个专栏收录

14 篇文章

订阅专栏

网络爬虫

14 篇文章

订阅专栏

本文介绍了如何安装BeautifulSoup库并使用它来解析HTML文档。包括了从网页抓取HTML内容到解析HTML标签的方法，展示了如何提取标签名、属性及字符串。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

安装Beautiful Soup库：

pip install beautifulsoup4

Beautiful Soup库的安装小测

演示HTML页面地址：http://python123.io/ws/demo.html

1.手工获得HTML源代码

打开浏览器，右键点击“查看源文件”

2.利用requests库

import requests

r = requests.get(“http://python123.io/ws/demo.html”)

r.text

demo = r.text

Beautiful Soup库安装小测

from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,“html.parser”)
print(soup.prettify())

from bs4 import BeautifulSoup
soup = BeautifulSoup(‘<p>data</p>’,“html.parser”)

Beautiful Soup库的基本元素

HTML文件<==>标签树

<html>

<body>

…

</body>

</html>

Beautiful Soup库是解析、遍历、维护“标签树”的功能库

…：标签Tag

…

名称Name，成对出现

属性Attributes，0个或多个

Beautiful Soup库，也叫beautifulsoup4或bs4

约定引用方式如下，即主要是用BeautifulSoup类

from bs4 import BeautifulSoup
import bs4

HTML文件<==>标签树<==>BeautifulSoup类

>>> from bs4 import BeautifulSoup

>>> soup = BeautifulSoup("<html>data</html>","html.parser")

>>> soup2 = BeautifulSoup(open("D://demo.html"),"html.parser")

Beautiful Soup库解析器

soup = BeautifulSoup("<html>data</html>","html.parser")

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup(mk,'html.parser')	安装bs4库
lxml的HTML解析器	BeautifulSoup(mk,'lxml')	pip install lxml
lxml的XML解析器	BeautifulSoup(mk,'xml')	pip install lxml
html5lib的解析器	BeautifulSoup(mk,'html5lib')	pip install html5lib