Python爬虫入门（DAY4）选择器selector创建（re/XPATH/Beautiful Soup/css/parser）（难点）

秋柴

于 2023-05-15 22:11:46 发布

阅读量1k

点赞数 1

文章标签： python 爬虫 html 学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_56005867/article/details/130693943

版权

基于前三天的学习，我们知道了浏览器与服务器基于HTTP协议下的工作流程与报文格式（返回值为html文档），并不是我们想要的直观图片，txt等内容。那我们接下来的目标就很简单了，把得到的报文转化成我们想要的内容。

（原理：html文档组成中body标签对是指HTML页面中的<body>标签和</body>标签，这些标签用于包含页面的主要内容，例如文本、图片、视频等。body标签对中的内容会在页面上显示，是网页的核心部分。有时文件内容太大，会指向一个固定存储地址，也需要我们辨别）

即通过我们规定好的提取规则，将HTML文档中的一些特殊资源片段（类似有css，xpath，下载资源地址等）提取出来，这些资源再经过后续处理美化（比如下载，保存，求和，统计等），就可以得到我们最终需要的资源。

这个过程，我们称为创建selector选择器

（注释：这也是整个简单爬虫过程中最难的部分，这里的简单包括两层意思：

1：selector常用的创建方法规则是统一的，无论是re正则，还是XPATH，亦或是Beautiful soup和parse，他们的匹配方法大同小异，一法通万法通

2.我们

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

秋柴 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。