安装:
apt install python-bs4
pip install beautifulsoup4
下载源码:https://pypi.python.org/pypi/beautifulsoup4/ 之后使用python setup.py install安装
apt install python-lxml
easy_install lxml
pip install lxml
apt install python-html5lib
easy_install html5lib
pip install html5lib
解析器比较
| 解析器 | 使用方法 | 优势 |
劣势 |
|---|---|---|---|
| python标准库 | BeautifulSoup(markup,"html.parser") |
python的内置标准库 执行速度适中 文档容错能力强 | python2.7.3或者3.2.2之前的版本文档容错能力差 |
| lxml html解析器 | BeautifulSoup(markup,"lxml") |
速度快 文档容错能力强 | 需要安装C语言库 |
| lxml html解析器 |
BeautifulSoup(markup,["lxml","xml"]) BeautifulSoup(markup,"xml") |
速度快 唯一支持xml的解析器 | 需要安装C语言库 |
| html5lib | BeautifulSoup(markup,"html5lib") |
最好的容错性 以浏览器的方式解析文档 生成html5格式文档 |
速度慢 不依赖外部扩展 |
来源:python爬虫开发与项目实战
本文详细介绍了Python中用于网页解析的BeautifulSoup库的安装步骤,包括python-bs4、lxml和html5lib等解析器。通过比较它们的速度、容错能力和依赖性,帮助读者选择合适的解析器。lxml提供了更快的速度和强大的容错能力,但需要安装C语言库;html5lib则以最佳的容错性著称,但解析速度较慢。
553

被折叠的 条评论
为什么被折叠?



