爬虫的快速入门基础（三）爬虫三大库知识以及requests库入门第一章

最新推荐文章于 2025-08-05 12:11:53 发布

原创

最新推荐文章于 2025-08-05 12:11:53 发布 · 698 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #爬虫

本文介绍了Python爬虫的三大基础库——Requests、Lxml和BeautifulSoup。通过实例展示了如何使用Requests库发送HTTP请求，获取网页源代码，并利用BeautifulSoup解析网页内容。文中详细解释了如何设置User-Agent，以及如何将爬取的数据保存到本地HTML文件。通过运行示例代码，读者可以完成自己的第一个爬虫程序，抓取并保存百度首页的源代码。

一、爬虫三大库简单介绍（后面会一个一个详细介绍使用方法）

import requests 这个就是导入 requests库

需要安装第三方库就使用这个命令 pip install 第三方库的名称

比如安装requests库就是 pip install requests
需要打开cmd
比如：

from bs4 import BeautifulSoup 这个是导入 BeautifulSoup库的写法

爬虫三大库 Requests Lxml BeautifulSoup

二、requests库入门

第一个爬虫程序

# 这个是导入requests库

import requests

# 这个可以理解为定义url网址链接是多少这个链接需要你自己去复制你想要爬取的网址的链接

url ="http://www.baidu.com"

# 这个headers 在浏览器的f12工具中找首先进入百度按f12

# 然后如下图找到网络

然后随便点一个名称中的文件往下滑找到User-Agant 复制整个User-Agant的内容作为headers即可

&nbs

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ZTLJQ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。