何为Beautiful Soup
下面的话引用自官方文档:
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。
确实,Beautiful是在爬虫应用中,解析提取Html元素的一个简单易用但高效的库。
安装 Beautiful Soup
安装的方式也有很多,可以从源码编译安装,也可以使用python的包管理器来快速安装,后者是常用的方式。
pip install beautifulsoup4
这样便可以在python中通过from bs4 import BeautifulSoup
来使用BeautifulSoup。
使用Beautiful Soup
例如有如下html:
<html>
<body>
<h1 id=