python爬虫教程（3）-requests爬取静态网页

最新推荐文章于 2025-07-17 15:37:09 发布

原创

最新推荐文章于 2025-07-17 15:37:09 发布 · 3.6k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#python #网络爬虫

本文是Python爬虫教程的第三部分，主要介绍如何使用requests库抓取静态网页。讲解了如何获取响应内容，理解响应的属性如.text、.encoding、.status_code和.content。此外，详细阐述了定制请求头的方法，通过Chrome浏览器的网络检查工具找到并复制user-agent，以及设置超时处理避免长时间等待导致的程序阻塞。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

欢迎来到python爬虫大讲堂，现在开始你的爬虫旅程吧！

静态网页

在网站中，纯HTML格式的网页被称为静态网页，在我们的爬虫中，静态网页较容易获取，因为页面上的内容都在HTML代码上，关于静态网页，我们可以使用requests库，之前我们已经安装过requests库了，所以我们直接开始：

获取相应内容

import requests
r=requests.get('https://blog.youkuaiyun.com/weixin_42183408')
print("文本编码：",r.encoding)
print("响应状态码：",r.status_code)
print("字符串方式的响应体：",r.text)

你会得到这样：
在这里插入图片描述
接下来我们来看看说明：