【爬虫知识】比lxml和bs4都要好？解析器parsel的使用

最新推荐文章于 2024-02-06 21:57:26 发布

仙草哥哥

最新推荐文章于 2024-02-06 21:57:26 发布

阅读量1.6k

点赞数 12

CC 4.0 BY-SA版权

文章标签：爬虫 python scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sagegrass/article/details/125877072

博客介绍了解析库parsel的使用，包括如何使用xpath、css和正则表达式从HTML文本中提取数据。相较于lxml和bs4，parsel的优势在于其全面的功能（同时支持XPath、CSS和正则）、简单的使用方式、温和的错误处理以及高通用性。推荐学习和使用parsel作为网页解析工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文本提取

爬虫程序中，一个非常重要的步骤就是从源代码中提取所需要的文本数据，提取的方法是非常多样的，比如说可以使用python内置的字符串函数，或者是使用正则表达式。如果是结构化的数据的话，可能还会用到json等

当然，一般来说，像html这种格式的数据，使用通用的文本提取方式比较麻烦，效率不高。而通过xml的解析器的方式，直接提取数据，是较为容易的，常用的解析器有lxml以及beautifulsoup4

关于lxml和bs4的优缺点，在往期的文章中我们也有过对比，简单概括的话，我们可以这样认为：一般来说，lxml更擅长于使用xpath的解析器，而bs4更擅长于使用css的解析器。当然，你会用任何一种都是可以的，并非要两种都学会，只是如果你更喜欢用xpath的话，可以考虑lxml，如果更喜欢css的话，可以考虑使用bs4

这时候就有人有疑问了，“小孩子才做选择题，我全都要！为什么我不可以同时使用xpath和css呢？比如说我使用scrapy中的Selector不是更好吗？“

确实如此，比如说之前我在这篇文章中对比了bs4和scrapy的Selector，结果证明Selector确实很好用，但是用的人却不多，这又是为什么呢？

一个可能原因就是，很多人可能并不希望为了一个解析器要专门下载scrapy，好吧，这也就是本文的主题了，其实scrapy中的解析器，是可以单独下载使用的，它包含在parsel之中，如果你不希望下载scrapy，也可以通过pip install parsel来单独下载scrapy的解析器

parsel的使用

文本准备

如果希望使用文本解析器，首先我们肯定需要有一段文本。这里我简单的写了一段html，就当作本文要解析的文本使用了，如下所示，我会默认将其保存到html变量中

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。