python网络爬虫（一）——网络爬虫基本原理

最新推荐文章于 2025-04-10 07:31:25 发布

原创

最新推荐文章于 2025-04-10 07:31:25 发布 · 1.7k 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #爬虫 #数据库

1.使用Beautiful Soup解析网页

通过request库已经抓取到网页源码，接下来要从源码中找到并提取数据。Beautiful Soup是python的一个库，其主要功能是从网页中抓取数据。Beautiful Soup目前已经被移植到bs4库中，也就是说在导入Beautiful Soup时需要先安装bs4。
安装好bs4库后，还需要安装lxml库。如果我们不安装lxml库，就会使用python默认的解析器。尽管Beautiful Soup既支持python标准库中的HTML解析器，又支持一些第三方解析器，但是lxml库功能更强大，速度更快，因此笔者推荐安装lxml库。

pip3 install request
pip3 install bs4
pip3 install lxml

Beautiful Soup库能够轻松解析网页信息，它被集成在bs4库中，需要时可以从bs4库中调用。首先，HTML文档将被转换成Unicode编码格式，然后Beautiful Soup选择最合适的解析器来解析这个文档，此处指定lxml库进行解析，解析后便将复杂的HTML文档转换成树形结构，并且每个节点都是python对象。

2.网络爬虫的基本原理

2.1网页请求

（1）Request
每个展示在用户面前的网页都必须经过这一步，也就是向服务器发送访问请求；
（2）Response
服务器在接收到用户的请求后，会验证请求的有效性，然后向用户（客户端）发送响应的内容；客户端接收服务器响应的内容，将内容展示出来，这就是我们所熟悉的网页请求。

2.2请求方式

（1）GET
最常见的方式，一般用于获取或查询资源信息，参数设置在URL中，其也是大多数网站

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。