Python解析Html:
一、通过正则表达式进行解析:
推荐正则表达式的一篇博客,见blog《Python正则表达式指南》。
二、通过BeautifulSoup进行解析:
写代码时很人性化,但是耗时损失较大。
官方文档。
三、通过PyQuery进行解析:
基于lxml,相对于lxml而言写代码时很人性化,类似于BeautifulSoup,同时耗时损失较小,相比于BeautifulSoup有数倍的改进。
官方文档。推荐一篇博客,见blog《Python Html解析器性能评测”》。
此处再附加一篇不错的blog《python网页解析|飞熊在天》
本文介绍了使用 Python 进行 HTML 解析的三种方法:利用正则表达式、BeautifulSoup 和 PyQuery。正则表达式简单但不够灵活;BeautifulSoup 易于使用但效率较低;PyQuery 类似于 jQuery,既高效又方便。
2251

被折叠的 条评论
为什么被折叠?



