[python爬虫笔记]
💕学习爬虫的第五天💕
昨天,简单给大家介绍了数据解析中的RE的语法和用法。今天,简单做个实例——爬取豆瓣TOP250,体验一下核心的代码流程,并在文章的最后将源码给到大家,望大家多多指正。🧡🧡🧡
爬虫的核心包含以下几个部分:
- 导入包;
# 1. 导入包
import requests # 请求包
import re # 正则表达式
import csv
- 获取原页面数据来源的url;
# 2. 获取原页面数据来源的url
"""
数据的请求来源有两种:
1、客户端 2、服务器端
"""
url = "https://movie.douban.com/top250"
- 使用requests获取页面源代码;
# 3. 使用requests获取页面源代码
# 设置headers
hea = {
"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
}
# resp = requests.get(url)
# print(resp) # <Response [418]> =>表明请求头有问题,需要设置headers
resp = requests.get(url, headers=hea)
# print(resp.text) # <Response [200]> => 表明已经可以拿到页面源代码了
- 使用re(正则表达式)解析页面源代码;

最低0.47元/天 解锁文章
9246

被折叠的 条评论
为什么被折叠?



