【实例1—爬取豆瓣TOP250】

原创

已于 2024-07-08 21:02:17 修改 · 1.7k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #笔记 #python

于 2024-07-08 20:57:52 首次发布

[python爬虫笔记]

💕学习爬虫的第五天💕

昨天，简单给大家介绍了数据解析中的RE的语法和用法。今天，简单做个实例——爬取豆瓣TOP250，体验一下核心的代码流程，并在文章的最后将源码给到大家，望大家多多指正。🧡🧡🧡

爬虫的核心包含以下几个部分：

导入包；

# 1. 导入包
import requests  # 请求包
import re  # 正则表达式
import csv

获取原页面数据来源的url；

# 2. 获取原页面数据来源的url
"""
数据的请求来源有两种：
1、客户端   2、服务器端
"""
url = "https://movie.douban.com/top250"

使用requests获取页面源代码；

# 3. 使用requests获取页面源代码
# 设置headers
hea = {
   
   
    "User-Agent":
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
}
# resp = requests.get(url)
# print(resp)  # <Response [418]> =>表明请求头有问题，需要设置headers
resp = requests.get(url, headers=hea)
# print(resp.text)  # <Response [200]> => 表明已经可以拿到页面源代码了