Python爬虫实战入门：手把手教你抓取豆瓣电影Top250（零基础友好）-优快云博客

本文链接：https://blog.youkuaiyun.com/techvoyager1/article/details/147979864

文章目录

一、爬虫究竟是什么？（小白必看）

每天打开手机刷新闻/看商品的时候，你有没有好奇过这些数据是怎么来的？答案就是——爬虫程序！（敲黑板）

简单来说，爬虫就像个不知疲倦的：

数据搬运工 👷♂️
信息收割机 🌾
网络复印机 🖨️

但它比人类快得多！1秒钟能访问成百上千个网页（注意别把人家服务器搞崩了）

二、环境准备（3分钟搞定）

1. 安装必备工具（直接复制命令）

pip install requests beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple

（国内镜像安装速度飞起~）

2. 开发工具选择

推荐VS Code/PyCharm
记事本也能写（但调试会哭）😭

三、第一个实战案例（手别抖！）

目标：抓取豆瓣电影Top250的电影名称和评分

import requests
from bs4 import BeautifulSoup

# 伪装浏览器访问（重要！）
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}

# 发送请求（注意这里要加headers）
response = requests.get('https://movie.douban.com/top250', headers=headers)

# 解析网页（就像用剪刀✂️裁剪纸片）
soup = BeautifulSoup(response.text, 'html.parser')

# 定位电影信息（CSS选择器大法）
movies = soup.select('.hd span.title:nth-child(1)')
scores = soup.select('.rating_num')

# 打印结果（见证奇迹的时刻）
for movie, score in zip(movies, scores):
    print(f"{movie.text} 评分：{score.text}")

运行结果示例：

肖申克的救赎 评分：9.7
霸王别姬 评分：9.6
阿甘正传 评分：9.5
...

四、代码逐行解析（重点理解）

User-Agent伪装：让网站以为你是正经浏览器（否则会被封IP！）
requests.get()：像浏览器地址栏输入网址
BeautifulSoup：把网页变成结构化的数据树
CSS选择器：精准定位元素（就像用GPS找宝藏🗺️）

五、进阶技巧（学完就能接单）

1. 翻页处理（抓取全部250条）

发现规律：每页url参数变化规律

for page in range(0, 250, 25):
    url = f'https://movie.douban.com/top250?start={page}'
    # 重复上述抓取流程...

2. 数据存储（CSV格式）

import csv

with open('movies.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(['电影名称', '评分'])
    for movie, score in zip(movies, scores):
        writer.writerow([movie.text, score.text])