在本节中,我们将使用 requests
库爬取 豆瓣电影排行榜页面数据。通过一步步实操,学习如何使用 requests
库发送 HTTP 请求、获取网页 HTML 数据,并为后续的网页解析做好准备。
1. 目标:获取豆瓣电影排行榜的网页数据
豆瓣电影提供了电影排行榜页面,网址如下:
https://movie.douban.com/top250
在本节中,我们的目标是:
- 访问 豆瓣电影排行榜 页面。
- 获取该页面的 HTML 数据。
- 解析并存储数据,为后续提取电影信息做准备。
2. 安装 requests 库
在爬取网页之前,需要安装 requests
库:
pip install requests
requests
是 Python 的 HTTP 库,用于发送网页请求、获取网页数据。
3. 发送请求并获取 HTML
我们首先尝试访问豆瓣电影排行榜页面,并获取返回的 HTML 数据。
示例代码
import requests
# 目标网址
url = "https://movie.douban.com/top250"
# 发送 GET 请求
response = requests.get(url)
# 输出网页 HTML 内容
print(response.text)
代码解析
url = "https://movie.douban.com/top250"
:指定要爬取的豆瓣电影排行榜页面地址。requests.get(url)
:发送 GET 请求,获取网页的 HTML 数据。response.text
:返回网页的 HTML 源代码,可以看到网页的完整结构。
运行结果
程序执行后,终端会打印出HTML 代码,其中包含电影排行榜页面的所有信息。
4. 处理请求头,模拟浏览器访问
直接使用 requests.get(url)
可能会遇到 403 Forbidden 错误,原因是:
- 服务器检测到请求来自爬虫,而不是普通用户浏览器。
- 需要模拟浏览器访问,添加
User-Agent
请求头。