python支持很多很强大的解析库。下面我总结了几种,基本上熟练掌握一两个解析这块就没任何问题了。
1.XPath
XPath 全称 XML Path Language ,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言
它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索
使用之前安装好 lxml 库
如果想查询更多 XPath 的用法,可以查看: http://www w3school.eom.cn/xpath/index.as
如果想查询更多 .Pyt on xml 库的用法,可以查看 htψ :// lxml.de
2.Beautiful Soup
具 Beautiful Soup ,它借助网页的结构和属性等特性来
解析网页 有了它 ,我们不用再去写一些复杂的正 表达式,只需要简单的几条语句,就可以完成网页中某个元素的提取
from bs4 import BeautifulSoup
soup = BeautifulSoup(’<p>Hello</p>’,’ lxml')
print(soup . p.string)
可以参考官方文档了解更多的用法
3.pyquery
如果你对 有所涉及,如果你比较喜欢用 css 选择器,如果你对 jQuery 有所了解,那么最合适的就是pyquery
如果想查看更多的 容,可以参考 pyquery 的官方文
档: http:// pyquery.readthedocs.io