抓取网页代码之后,下一步就是从网页中提取信息。提取信息的方式有多种多样,可以使用正则来提取,但是写起来相对比较烦琐。这里还有许多强大的解析库,如Ixml、Beautiful Soup、pyquery等。此外,还提供了非常强大的解析方法,如 XPath 解析和 CSS 选择器解析等,利用它们,我们可以高效便捷地从网页中提取有效信息。本文中,我们就来介绍一下这些库的安装过程。
一.lxml 的安装
lxml 是 Python 的一个解析库,支持 HTML 和 XML 的解析,支持 XPath 解析方式,而且解析效率非常高。本文中,我们了解一下 lxml的安装方式,这主要从 Windows、Linux 和 Mac 三大平台来介绍。
1.相关链接
官方网站:http:/xml.de
GitHub: https://github.com/lxml/lxml
PyPI: https://pypi.python.org/pypi/lxml
2.Windows 下的安装
在 Windows下,可以先尝试利用pip安装,此时直接执行如下命令即可: pip3 install lxml
如果没有任何报错,则证明安装成功。
如果出现报错,比如提示缺少 libxml2 库等信息,可以采用 wheel 方式安装。
推荐直接到这里(链接为:http://www.lfd.uciedu/~gohlke/pythonlibs/#lxml)下载对应的 wheel 文件,找到本地安装 Python 版本和系统对应的lxml 版本,例如 Windows 64 位、Python 3.6,就选择 lxml-3.8.0-cp36-cp